留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

微孢子虫PolyA位点的预测

上一篇

下一篇

孙康, 杨明, 马立, 等. 微孢子虫PolyA位点的预测[J]. 西南大学学报(自然科学版), 2017, 39(4): 138-143. doi: 10.13718/j.cnki.xdzk.2017.04.021
引用本文: 孙康, 杨明, 马立, 等. 微孢子虫PolyA位点的预测[J]. 西南大学学报(自然科学版), 2017, 39(4): 138-143. doi: 10.13718/j.cnki.xdzk.2017.04.021
Kang SUN, Ming YANG, Li MA, et al. Prediction of Polyadenylation Sites in Microsporidian Genome[J]. Journal of Southwest University Natural Science Edition, 2017, 39(4): 138-143. doi: 10.13718/j.cnki.xdzk.2017.04.021
Citation: Kang SUN, Ming YANG, Li MA, et al. Prediction of Polyadenylation Sites in Microsporidian Genome[J]. Journal of Southwest University Natural Science Edition, 2017, 39(4): 138-143. doi: 10.13718/j.cnki.xdzk.2017.04.021

微孢子虫PolyA位点的预测

  • 基金项目: 国家自然科学基金面上项目(31371055);中央高校基本业务费专项资助项目(XDJK2015A010)
详细信息
    作者简介:

    孙康(1990-),女,河南郑州人,硕士研究生,主要从事人工智能与机器学习方面的研究 .

  • 中图分类号: TP399

Prediction of Polyadenylation Sites in Microsporidian Genome

  • 摘要: 多聚腺苷酸化是真核细胞内形成成熟mRNA的一个重要步骤,其位点的预测对基因组序列中编码基因的发掘具有重要的参考价值.本研究以缺乏有效基因预测方法的微孢子虫基因组为对象,根据该物种的基因表达偏好设计了一个算法,对其PolyA位点进行预测分析.首先,采用k阶核苷酸频率形式和位置权重矩阵形成初始的特征,然后用PCA降低特征空间的维数,得到的数据用机器学习方法进行分析,产生一个较好的分类结果.其中基于支持向量机的实验得到的敏感度(Sp)和ACC分别达到了87.33%和85.14%,这在微孢子虫的PolyA位点预测上取得了较为理想的效果,并为以后机器学习算法在微孢子虫基因预测领域做了很好的尝试.
  • 加载中
  • 图 1  PolyA位点结构特征

    图 2  PolyA位点预测基本流程图

    图 3  决策树,KNN算法和SVM算法的ROC曲线图

    表 1  微孢子虫PolyA位点的识别算法的性能

    Sn/%Sp/%ACC/%
    SVM算法74.8687.3385.14
    决策树算法53.7149.0950
    KNN算法61.74548.2
    下载: 导出CSV
  • [1] 罗洁, 林立鹏, 潘国庆, 等.家蚕微孢子虫NbTom40的原核表达及定位[J].西南大学学报(自然科学版), 2013, 35(5): 30-36. doi: http://xbgjxt.swu.edu.cn/jsuns/jsuns/ch/reader/view_abstract.aspx?file_no=201305006&flag=1
    [2] KATINKA M D, DUPRAT S, CORNILLOT E, et al. Genome Sequence and Gene Compaction of the Eukaryote Parasite Encephalitozoon Cuniculi [J]. Nature, 2001, 414(6862): 450-453. doi: 10.1038/35106579
    [3] 杨亮, 张红星, 崔英, 等.可选择性多聚腺苷酸化的生物学功能[J].军事医学, 2015, 39(5): 393-397. doi: http://www.cnki.com.cn/Article/CJFDTOTAL-JSYX201505020.htm
    [4] EARLY P, ROGERS J, DAVIS M, et al. Two mRNAs Can be Produced from a Single Immunoglobulin Mu Gene by Alternative Rna Processing Pathways [J]. Cell, 1980, 20(2): 313-319. doi: 10.1016/0092-8674(80)90617-0
    [5] HAFEZ D, NI T, MUKHERJEE S, et al. Genome-Wide Identification and Predictive Modeling of Tissue-Specificalter Native Polyadenylation [J]. Bioinformatics, 2013, 29(13): i108-i116. doi: 10.1093/bioinformatics/btt233
    [6] doi: http://mmbr.asm.org/content/63/2/405.full ZHAO J, HYMAN L, MOORE C. Formation of mRNA 3' Ends in Eukaryotes: Mechanism, Regulation, and Interrelationships with Other Steps in mRNA Synthesis [J]. Microbiol Mol Biol Rev, 1999, 63(2): 405-445.
    [7] doi: https://www.researchgate.net/publication/14126919_Recognition_of_3%27-processing_sites_of_human_mRNA_precursors SALAMOV A A, SOLOVYEV V V. Recognition of 3'-Processing Sites of Human mRNA Precursors [J]. Comput Appl Biosci, 1997, 13(1): 23-28.
    [8] GRABER J H, CANTOR C R, MOHR S C, et al. Genomic Detection of New Yeast Pre-mRNA 3'-End-Processing Signals [J]. Nucleic Acids Research, 1999, 27(3): 888-894. doi: 10.1093/nar/27.3.888
    [9] LEGENDRE M, GAUTHERET D. Sequence Determinants in Human Polyadenylation Site Selection [J]. BMC Genomics, 2003, 4(1): 7. doi: 10.1186/1471-2164-4-7
    [10] CHENG Y, MIURA R M, TIAN B, Prediction of mRNA Polyadenylation Sites by Support Vector Machine [J]. Bioinformatics, 2006, 22(19): 2320-2325. doi: 10.1093/bioinformatics/btl394
    [11] AKHTAR M N, BUKHARI S A, FAZAL Z, et al. POLYAR, a New Computer Program for Prediction of Poly(A) Sites in Human Sequences [J]. BMC Genomics, 2010, 11: 646. doi: 10.1186/1471-2164-11-646
    [12] doi: https://www.researchgate.net/profile/Dexing_Zhong/publication/257601469_A_hybrid_model_for_the_prediction_of_mRNA_polyadenylation_signals/links/0deec52afaa44c6ce4000000.pdf?inViewer=true&pdfJsDownload=true&disableCoverPage=true&origin=publication_detail HAN J, LIU Z, ZHONG D, et al. A Hybrid Model for the Prediction of mRNA Polyadenylation Signals [J]. Conf Proc IEEE Eng Med Biol Soc, 2013, 2013: 3511-3514.
    [13] VAVRA J, LUKES J. Microsporidia and 'the Art of Living Together' [J]. Adv Parasitol, 2013, 82: 253-319. doi: 10.1016/B978-0-12-407706-5.00004-6
    [14] PEYRETAILLADE E, ELALAOUI H, DIOGON M, et al. Extreme Reduction and Compaction of Microsporidian Genomes [J]. Res Microbiol, 2011, 162(6): 598-606. doi: 10.1016/j.resmic.2011.03.004
    [15] KEELING P J, CORRADI N. Shrink it or Lose it: Balancing Loss of Function with Shrinking Genomes in the Microsporidia [J]. Virulence, 2011, 2(1): 67-70. doi: 10.4161/viru.2.1.14606
    [16] 董战旗, 张军, 胡楠, 等.家蚕核型多角体病毒IE1的多克隆抗体制备及鉴定[J].西南大学学报(自然科学版), 2014, 36(10): 76-81. doi: http://xbgjxt.swu.edu.cn/jsuns/jsuns/ch/reader/view_abstract.aspx?file_no=2014-10-076&flag=1
    [17] BELKORCHIA A, GASC C, POLONAIS V, et al. The Prediction and Validation of Small CDSs Expand the Gene Repertoire of the Smallest Known Eukaryotic Genomes [J]. PLoS ONE, 2015, 10(9): e0139075. doi: 10.1371/journal.pone.0139075
    [18] STORMO G D, SCHNEIDER T D, GOLD L, et al. Use of the 'Perceptron' Algorithm to Distinguish Translational Initiation Sites in E. coli [J]. Nucleic Acids Res, 1982, 10(9): 2997-3011. doi: 10.1093/nar/10.9.2997
    [19] VAPNIK V N. Statistical Learning Theory [M]. New York: Wiley-Interscience, 1998.
    [20] 晏勇.基于SKLLE和SVM的人脸表情识别[J].西南师范大学学报(自然科学版), 2014, 39(1): 55-60. doi: http://www.cnki.com.cn/Article/CJFDTOTAL-XNZK201401009.htm
    [21] 李琴, 张瑾, 骈聪, 等.基于位置关联权重矩阵及序列组分的多样性增量识别剪接位点[J].生物物理学报, 2014, 30(5): 391-400. doi: http://www.cnki.com.cn/Article/CJFDTOTAL-SWWL201405007.htm
    [22] 廖堃, 段江波, 周艳红.人类基因PolyA位点预测[J].计算机学报, 2008, 31(6): 927-933. doi: http://www.cnki.com.cn/Article/CJFDTOTAL-JSJX200806005.htm
  • 加载中
图( 3) 表( 1)
计量
  • 文章访问数:  659
  • HTML全文浏览数:  310
  • PDF下载数:  66
  • 施引文献:  0
出版历程
  • 收稿日期:  2016-06-08
  • 刊出日期:  2017-04-20

微孢子虫PolyA位点的预测

    作者简介: 孙康(1990-),女,河南郑州人,硕士研究生,主要从事人工智能与机器学习方面的研究
  • 1. 西南大学 计算机与信息科学学院,重庆 400715
  • 2. 西南大学 生物技术学院 家蚕基因组生物学国家重点实验室,重庆 400716
  • 3. 西南大学 教师教学发展中心,重庆 400715
基金项目:  国家自然科学基金面上项目(31371055);中央高校基本业务费专项资助项目(XDJK2015A010)

摘要: 多聚腺苷酸化是真核细胞内形成成熟mRNA的一个重要步骤,其位点的预测对基因组序列中编码基因的发掘具有重要的参考价值.本研究以缺乏有效基因预测方法的微孢子虫基因组为对象,根据该物种的基因表达偏好设计了一个算法,对其PolyA位点进行预测分析.首先,采用k阶核苷酸频率形式和位置权重矩阵形成初始的特征,然后用PCA降低特征空间的维数,得到的数据用机器学习方法进行分析,产生一个较好的分类结果.其中基于支持向量机的实验得到的敏感度(Sp)和ACC分别达到了87.33%和85.14%,这在微孢子虫的PolyA位点预测上取得了较为理想的效果,并为以后机器学习算法在微孢子虫基因预测领域做了很好的尝试.

English Abstract

  • 微孢子虫是一类专性细胞内寄生的单细胞真核生物,宿主范围广泛,能够寄生在几乎所有的无脊椎动物和脊椎动物上[1].微孢子虫的细胞核含有多条染色体,核糖体为原核型的70S核糖体.微孢子虫的基因组高度减缩,绝大部分编码基因丢失了内含子,基因及基因间区的长度均变短,如感染哺乳动物的兔脑炎微孢子虫的基因平均长度为1 080 bp,基因间区长度仅为129 bp[2].微孢子虫基因组的特殊性导致其编码基因的准确预测是一个亟待解决的问题.绝大多数真核基因具有多个PolyA位点,在形成成熟的mRNA过程中,外界环境的细微改变导致在mRNA的不同剪切位点进行选择性剪切和多聚腺苷酸化,这个现象叫做可选择性多聚腺苷酸化(APA). APA能够影响胞外信号刺激、生长与发育、细胞增殖和多种疾病的发生发展[3-4].多聚腺苷酸化是真核细胞内mRNA转录后处理形成成熟mRNA的一个重要步骤(mRNA转录处理的3个主要步骤分别是:5'帽子结构的形成,内含子的剪切和3'端加尾巴[5]),它影响着基因的表达,对预测基因结构有着巨大的作用.多聚腺苷酸化作用机制:切割及多聚腺苷酸化特异因子(Cleavage Polyadenylation Specific Factor,CPSF)绑定到PolyA信号序列,切割活化因子(Cleavage stimulation Factor,CstF)识别下游的U-rich和G/U-rich序列并相互作用,切割因子CFI在PolyA信号和下游作用元件之间的某个位置对前体mRNA进行分裂,最后在PolyA聚合酶的作用下添加多聚腺苷酸尾巴[6]. PolyA位点结构特征如图 1所示.

    由于PolyA位点的预测对基因结构的分析和mRNA的形成机制有着重要的作用,近年来PolyA信号的预测引起了越来越多的关注.起初,人们基于线性判别函数的原理设计出了POLYAH[7];1999年,Graber等利用马尔科夫模型来预测PolyA位点[8];2003年,通过Erpin统计PolyA位点上下游的序列中一些位置特异的二核苷酸对所出现的频率进行预测[9];随后开始采用机器学习的方法来预测PolyA位点,例如基于SVM的PROBE[10];现在人们最常用的是POLYAR方法,它把PolyA位点分成3类(PAS-strong,PAS-weak,PAS-less)进行预测[11],还有研究者利用神经网络进行预测[12].然而这些方法却很少在微孢子虫基因组上尝试,主要原因在于人类基因与植物基因的研究颇为成熟,许多软件是针对研究较为成熟的人类基因或者植物基因表达偏好而设计的.目前已报道的微孢子虫有1 400多种,不同种属微孢子虫的基因组大小差异较大(2.3 Mbp~24 Mbp)[13-15].人类基因和植物基因相较于微孢子虫基因更为复杂,然而许多方法即使能够用于病原体的研究,结果也会存在较大误差.

    本文以Encephalitozoon cuniculi的基因组为数据材料[16-17],对其进行分析,设计了微孢子虫PolyA信号的特异性预测算法.文中提出了一种新的特征提取方法,然后基于SVM机器学习算法来对PolyA信号进行预测.具体过程是通过运用一些特征表达方法,例如位置权重矩阵(PWM)[18]k阶核苷酸出现频率来进行特征提取,运用主成分分析(PCA)法进行冗余特征的筛选,最后使用SVM分类器进行分类训练,从而建立微孢子虫PolyA信号的预测算法.

  • 本研究从NCBI数据库中下载Encephalitozoon cuniculi的基因组序列作为数据集.数据分为训练集和测试集.扫描全部基因序列,得到348条含有AATAAA的片段,训练集和测试集的正集各取174条序列,余下的序列分别作为训练集和测试集的负集,经过实验取证,本文用174条序列作为训练集的负集,821条序列作为测试集的负集.并且对数据集中的每一条序列都进行处理,剪切形成以PolyA信号AATAAA为中心,前后各100 bp的核苷酸,共206个核苷酸长的序列.

  • 现在比较流行的生物数据特征分析是机器学习领域的支持向量机(SVM)[19],SVM经常用于数据分类和回归问题.它的原理是将所有待分类的点映射到高维空间,然后在高维空间中找到一个能将这些点分开的“超平面”. SVM提供了一种避开高维空间的复杂性,直接用此空间的内积函数(核函数),再利用线性可分情况下的求解方法直接求解对应的高维空间的决策问题.当核函数已知时,可以简化高维空间问题的求解难度.支持向量机具有很好的泛化推广能力,它在生物信息领域的应用越来越广. SVM的核函数有3种:线性核函数、多项式核函数、高斯核函数[20].考虑到SVM具有良好的分类效果和在生物学中的广泛应用,文中将通过特征提取和空间降维所得到的数据,运用多项式核函数来进行分类.

  • PolyA的序列与其他序列(例如启动子)保守性较弱,使得很难分析PolyA位点的位置保守性.近几年位置权重矩阵(PWM)已经被广泛应用到分子生物学中,用来描述PolyA位点附近的碱基保守水平.构建位置权重矩阵时,横坐标代表 4个核苷酸碱基(ATCG),纵坐标代表在这条基序中对应的位置信息,矩阵中的值代表每一个可能出现的核苷酸在对应位置的频率.计算公式如下:

    nib(i=1,2,…,Nb=ATCG)代表的是序列的第b个碱基在第i个位置上出现的次数,其中N是所对应的序列的碱基总数.

    PWM被定义为

    θ0,b(b=ATCG)是序列上碱基b出现的随机频率,为了避免分母为0的情形,令θ0,b=0.253. fib是碱基b在位置i出现的频率.在这个算法中,用3-mer频率作为位置权重矩阵的参数.

    k阶是长度为k(k=1,2,3,…)的核苷酸的低聚物.例如A为1阶核苷酸类型,CG为2阶核苷酸类型,ACG为3阶核苷酸类型.借鉴蛋白质序列的特征组织方式来形成特征,本算法中的特征提取只考虑1~3阶的核苷酸出现的频率.对PolyA信号前后的200 bp序列综合考虑,共得到84个特征,在此基础上,本文又提取了T在上游和下游序列出现的频率和G在下游出现的频率共得到87个特征数据.

    提取得到的原始特征空间的维度很大,变量太多会增加计算量和问题的复杂性,为了更加全面系统地分析问题,在这里我们采用PCA的方法来进行空间的降维. PCA的计算步骤如下:① 计算相关系数矩阵;② 计算特征值和特征向量;③ 计算主成分载荷;④ 得出综合信息并进行递减排序,从而降低原始空间的维度.

    对于一个给定的微孢子虫PolyA位点,该PolyA位点预测基本流程图如图 2所示.

  • 本文通过敏感度(Sensitivity,Sn)、特异度(Specificity,Sp)[21]、准确度(Accuracy,ACC)、假阳性率(False Positive Rate,FPR)[22]和真阳性率(True Positive Rate,TPR)来评价模型的好坏.它们的定义如下:

    其中:TP表示真阳性,FP表示假阳性,TN表示真阴性,FN表示假阴性.

    ROC曲线的横纵坐标分别为FPRTPR,它代表横纵坐标之间的协同变化关系,是一种分类模型的评判标准. ROC曲线被广泛应用在分类模型的评价指标中,它的精准率一般用曲线下的面积表示,曲线下的面积越小,表示模型越不精准.

  • 经过特征提取得到原始空间的特征,然后用PCA进行降维,再用机器学习算法进行分类分析.分别对原始空间的特征和PCA降维后空间的特征进行分类,得出的特异度、敏感度、精确度大致相同.由于家蚕病原体的Encephalitozoon cuniculi的基因组序列的实验数据集的限制,本文使用原始空间的特征进行实验,采用SVM、决策树算法和KNN算法对本实验的数据进行分析比较,但是决策树算法和KNN算法分类出来的效果并没有SVM的好,SVM算法的精确度能达到85.14%,因此SVM算法有明显的算法优势. 表 1为微孢子虫PolyA位点识别算法的性能表.

    在相同数据的情况下,用ROC曲线来对SVM算法、决策树算法和KNN算法作分析,得到的结果如图 3所示,图中的红色虚线表示SVM算法,黄色虚线表示决策树算法,蓝色实线代表KNN算法.在微孢子虫PolyA位点的特异性预测算法中,SVM算法表现出了较高的性能.

  • 机器学习在选择性剪切位点预测、启动子的预测等应用中已经十分普遍,本文采用SVM机器学习的算法来对微孢子虫PolyA位点进行预测分析.为了使结果更加精确,根据PolyA位点附近的特征(下游是UU/G丰富的区域),在提取1~3阶的核苷酸出现的频率的基础上又提取了T在上游和下游出现的频率以及G在下游出现的频率来作为特征数据.使用目前应用非常广泛的特征提取方法—位置权重矩阵(PWM),并运用核苷酸的三阶频率来计算位置权重矩阵.然后用PCA的方法进行数据降维,最后用机器学习中的SVM算法来进行分类,通过对模型的评估与实验,得出了一个较好的结果.家蚕病原体的Encephalitozoon cuniculi的基因组序列的数据集不像人类基因组序列的实验数据集那样的庞大、丰富,虽然通过PCA降维去除了一些冗余特征,但由于研究对象的实验数据的限制,本文采用PCA降维之前的特征进行实验,与决策树和KNN算法相比,SVM有较大的优势.由于微孢子虫的基因组并没有一个完整注释PolyA位点的数据库,虽然算法产生出一个良好的结果,但在这一点还是有限制的.

    由于微孢子虫的基因库还不够完善,在这里用SVM算法对其进行分类预测,得出了较高的SnCSpAC.相较于在水稻基因中的研究,本算法的精确度还是比较高的.在接下来的研究中,我们将更加深入地了解微孢子虫的基因结构特征,进而对算法进行改进,使之更加精确和实用.我们希望通过运用计算机知识对微孢子虫进行PolyA位点预测,为生物学微孢子虫的研究者提供一个更好的思路.

参考文献 (22)

目录

/

返回文章
返回