基因表达数据集(Golub et al., 1999)

发布时间:2023-12-22浏览量:

  1. 数据集名称:

基因表达数据集(Golub et al., 1999)


  1. 数据集基本情况:

项目背景

该数据集来自Golub等人于1999年发表的概念验证研究。它显示了如何通过基因表达监测(通过DNA微阵列)对新的癌症病例进行分类,从而为鉴定新的癌症类别和将肿瘤分配给已知类别提供了一种通用方法。这些数据用于对急性髓细胞性白血病(AML)和急性淋巴细胞性白血病(ALL)的患者进行分类。

样本量

分别包含初始(训练,38个样本)和独立(测试,34个样本)数据集,共72个样本。

其他重要信息

这些数据集包含与来自骨髓和外周血的ALL和AML样本相对应的测量值。强度值已重新缩放,以使每个芯片的整体强度相等。


  1. 适用任务:

这些数据集非常适合分类问题。原始作者使用这些数据通过基因表达对每位患者的癌症类型进行分类。


  1. 下载地址:

https://tianchi.aliyun.com/dataset/88877/


  1. 文献出处:

Golub, T.R., et al., Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring. Science, 1999. 286(5439): p. 531-537.