-
乳腺癌是常见的妇科恶性肿瘤之一,其诊断、治疗策略和预后往往基于其病理分型.近年来研究表明,传统的病理分型对新开展的治疗方法并没有提供有效的指导,而大量乳腺癌分子生物学特征的数据表明可将乳腺癌分为管腔上皮A型(LuminalA型)、管腔上皮B型(LuminalB型)包括LuminalB1型、LuminalB2型、HER2过表达型及基底样型(三阴性型、正常乳腺样细胞型)[1].不同的类型其预后以及辅助治疗的效果都有明显差异,因此识别不同的乳腺癌亚型显得尤为重要.
近年来实验发现,用免疫组化方法检测药理学标记物(ER,PR,Ki67,HER2)的表达,可将乳腺癌患者进行亚型分类,但实验费用昂贵,实际操作也比较困难,目前只能局限于实验室,因此很难广泛应用于临床.随着计算机技术的发展,计算机技术不断地应用于生物信息和医疗领域,取得了显著的成果,如Osamu Gotoh等提出的快速矩阵检测技术可以比较有效地对基因进行检测[2].本文将数据挖掘技术应用到乳腺癌识别中来,通过建立不同的分类器,即随机森林、支持向量机和k近邻算法,可以快速地识别乳腺癌不同亚型.另外随机森林还可以找出乳腺癌不同亚型的高风险基因,从而对不同亚型的病人实施针对性治疗.
全文HTML
-
该数据有98个样本,1 213个基因,包含乳腺癌的3种亚型(来源于http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi).我们应用分类器对该数据进行分类,观察经过处理的数据对于3种亚型分类的实际符合程度.这里所采用的分类器性能评价标准是10折交叉验证,且下面得到的准确率均采用10折交叉验证得到.
首先用没有经过筛选的数据进行建模,用随机森林算法得到的准确率仅有88.0%,袋外误差(OBB)为14.0%;采用支持向量机分类得到的准确率为83.0%;采用k近邻算法得到的准确率为90.0%.这可能是因为基因很多,而对分类真正有用的却很少,且若对全部基因进行建模,计算的工作量及复杂程度将显著增加,因此需要对基因进行筛选.本文先采用方差分析进行筛选,除去表达差异性较小的基因,然后利用随机森林算法对基因进行重要性排序,再次选择具有重要性的基因,然后对此基因数据进行建模.
-
第一步:方差分析.若一个基因表达水平的分布在目标变量的所有可能值上差异不显著,则可以认为这个基因无助于区分这些目标变量.基于这一点,比较同一类乳腺癌亚型的样本所在数据子集的基因表达水平的均值,也即比较同一目标变量值条件下的基因均值.如果在统计上有很大信心认为一个基因的表达水平均值在属于每一类样本组上没有明显的区别,那么这些基因就可以被排除在进一步分析之外.用方差分析来比较多于两个组的均值,在R软件上加载genefilter包,可以很方便地进行这种基于方差分析的筛选,其中,假设检验的p值设置为p<0.01,筛选后得到799个基因.
第二步:用随机森林算法进行进一步筛选.用随机森林算法可得到变量对于分类作用的重要性排序.通过多次交叉验证和袋外误差的比较,所选32个基因得到的交叉验证的准确率为95.6%,袋外误差为4.08%,所得到的误差最低,分类效果最好.故选出32个基因来做进一步分类.
-
在筛选数据的基础上分别应用随机森林算法、支持向量机算法和k近邻算法进行建模.
首先对数据集设定10个交叉验证的数据集,再做随机森林的10折交叉验证,这里用到R软件程序包randomFroest里的randomforest()函数,其建立决策树棵树的默认值为500,得到测试集的分类平均准确率为95.6%.用随机森林算法得到的32个基因的重要性如图 1所示.
其次用支持向量机算法建模.用R软件上的程序包kernlab中的ksvm()函数来对乳腺癌进行分类,对于上面设定10交叉验证的数据集再做支持向量机的10折交叉验证,采用kernlab里的ksvm()函数做预测,得到测试集的分类平均准确率为92.9%.
同样,再用k近邻方法分类,这里所用到的函数是程序包kknn的函数kknn(),通过多次交叉验证,k=11时为最优邻近数目,虽然k=6时,准确率很高,但做交叉验证时,准确率比较低,而不做交叉验证不可能得到最好的信息.因此选择k=11对设定的10个交叉验证数据集再做最近邻的10折交叉验证,得到测试集的分类平均准确率为92.7%.如图 2,相比没有应用随机森林算法筛选的数据,3种算法得到的准确率有了有效地提升.
由图 1(b)可知,ERS1,GATA3,BTG3和VGLL1等基因的基尼(GINI)指数较高,这些基因对乳腺癌亚型区分起着十分重要的作用.相关研究表明,GATA3是锌脂结构转录因子GATA家族的一员,在T细胞发育、分化和胸腺发育过程中起重要作用[3]. GATA3在乳腺癌中高表达[4].也有报道认为GATA3可用于其他肿瘤的鉴别诊断[5-6]. GATA3与乳腺癌组织有着密切的关系,现在许多学者对于GATA3在乳腺癌组织中的表达及临床价值进行了相关研究,发现GATA3是在乳腺良性肿瘤和乳腺导管上皮细胞中进行表达,而在肌上皮细胞中却不表达[7-9]. GATA3表达也可能抑制了乳腺癌的发生、发展[10]. GATA3不仅与乳腺癌的预后有关,还可能作为乳腺癌的鉴别诊断标记[11].由此可见,GATA3对乳腺癌的研究具有十分重要的意义.对基因ESR1(雌激素受体基因)编码一种核受体蛋白,这种蛋白是雌激素敏感组织(如乳腺、子宫内膜和骨骼组织等)对雌激素应答的重要受体.雌激素通过与受体的高亲和,发挥其生物学作用,影响乳腺组织的生长和分化.该基因的多态性会影响乳腺组织的生长和分化,进而影响乳腺癌的易感性[12-14].相关研究表明,p53基因是基因研究最为广泛深入的肿瘤相关基因之一,是细胞生长周期中负调节因子,与细胞周期的调控、DNA修复、细胞分化、细胞凋亡等重要的生物学功能有关,BTG3作为p53的直接靶基因之一,与人类肿瘤有着生理关联,是一个候选的肿瘤抑制基因,因此对BTG3进行研究将会促进我们进一步了解肿瘤的发生发展,对肿瘤的防治有着重要的作用[15].这些基因均对乳腺癌的发生和发展有很大的影响,这里发现GATA3,ERS1,BTG3和VGLL1等基因对于乳腺癌不同亚型的区分起到很大的作用.
1.1. 基因的筛选
1.2. 模型建立及讨论
-
对于乳腺癌,在医学上存在着不同亚型的分类,不同亚型所采取的治疗方法也有很大的差异,所以识别乳腺癌的不同亚型显得尤为重要.本文应用方差分析和随机森林算法筛选出对分类有用的基因,再分别应用随机森林算法、支持向量机算法和k近邻算法在测试集上所得准确率分别为95.6%,92.9%和92.7%,并发现区分乳腺癌不同亚型的几个最重要的基因GATA3,ESR1和BTG3等.这些基因均对乳腺癌的发生和发展有着重要的影响,同时相比未用随机森林过滤的数据,准确率得到了很大提升,为识别不同的乳腺癌亚型提供了帮助,并且筛选出来的基因远远少于原来的基因,提高了识别速度,为诊断乳腺癌高风险基因类别降低了成本.