微孢子虫PolyA位点的预测

孙康; 杨明; 马立; 李田; 赵玉芳

doi:10.13718/j.cnki.xdzk.2017.04.021

微孢子虫PolyA位点的预测

1.
西南大学计算机与信息科学学院，重庆 400715

2.
西南大学生物技术学院家蚕基因组生物学国家重点实验室，重庆 400716

3.
西南大学教师教学发展中心，重庆 400715

基金项目: 国家自然科学基金面上项目(31371055)；中央高校基本业务费专项资助项目(XDJK2015A010)

详细信息

作者简介:
孙康(1990-)，女，河南郑州人，硕士研究生，主要从事人工智能与机器学习方面的研究 .

中图分类号: TP399

Prediction of Polyadenylation Sites in Microsporidian Genome

1.
School of Computer and Information Science, Southwest University, Chongqing 400715, China

2.
School of Biotechnology, State Key Laboratory of Silkworm Genome Biology, Southwest University, Chongqing 400716, China

3.
Teacher Education Development Center, Southwestern University, Chongqing 400715, China

摘要: 多聚腺苷酸化是真核细胞内形成成熟mRNA的一个重要步骤，其位点的预测对基因组序列中编码基因的发掘具有重要的参考价值.本研究以缺乏有效基因预测方法的微孢子虫基因组为对象，根据该物种的基因表达偏好设计了一个算法，对其PolyA位点进行预测分析.首先，采用k阶核苷酸频率形式和位置权重矩阵形成初始的特征，然后用PCA降低特征空间的维数，得到的数据用机器学习方法进行分析，产生一个较好的分类结果.其中基于支持向量机的实验得到的敏感度(S_p)和ACC分别达到了87.33%和85.14%，这在微孢子虫的PolyA位点预测上取得了较为理想的效果，并为以后机器学习算法在微孢子虫基因预测领域做了很好的尝试.
- PolyA信号 /
- 微孢子虫 /
- 位置权重矩阵 /
- 机器学习
Abstract: Polyadenylation is a critical cellular process that forms mature mRNAs in eukaryotic cells. The prediction of its sites is of an important reference value for the discovery of encoding genes in the genome sequence. At present, no effective gene prediction methods for microsporidian genomes are available. Here, we studied microsporidia genomes and, according to the preference of gene expression of the species, proposed a method to predict and analyze poly(A) sites of microsporidium. First, we employed the K-gram nucleotide acid pattern, position weight matrix and increment of diversity to form the initial features. Then we used PCA to reduce the dimension of the initial feature space. Finally, a classification model integrating SVM classifiers was built to predict poly(A) sites. By the proposed algorithm, we achieved a specificity (S_p) of 87.33% and an accuracy (ACC) of 85.14% in the specific dataset. This method also gave an ideal result in the prediction of the poly(A) sites in the microsporidium genome.
- poly(A) signal (polyadenylation signal) /
- Nosema bombycis /
- positional weight matrix /
- machine learning .
图 1 PolyA位点结构特征

下载: 全尺寸图片幻灯片

图 2 PolyA位点预测基本流程图

下载: 全尺寸图片幻灯片

图 3 决策树，KNN算法和SVM算法的ROC曲线图

下载: 全尺寸图片幻灯片

表 1 微孢子虫PolyA位点的识别算法的性能

Sn/% Sp/% ACC/%

SVM算法 74.86 87.33 85.14
决策树算法 53.71 49.09 50
KNN算法 61.7 45 48.2

下载: 导出CSV

[1]	罗洁, 林立鹏, 潘国庆, 等.家蚕微孢子虫NbTom40的原核表达及定位[J].西南大学学报(自然科学版), 2013, 35(5): 30-36. doi: http://xbgjxt.swu.edu.cn/jsuns/jsuns/ch/reader/view_abstract.aspx?file_no=201305006&flag=1
[2]	KATINKA M D, DUPRAT S, CORNILLOT E, et al. Genome Sequence and Gene Compaction of the Eukaryote Parasite Encephalitozoon Cuniculi [J]. Nature, 2001, 414(6862): 450-453. doi: 10.1038/35106579
[3]	杨亮, 张红星, 崔英, 等.可选择性多聚腺苷酸化的生物学功能[J].军事医学, 2015, 39(5): 393-397. doi: http://www.cnki.com.cn/Article/CJFDTOTAL-JSYX201505020.htm
[4]	EARLY P, ROGERS J, DAVIS M, et al. Two mRNAs Can be Produced from a Single Immunoglobulin Mu Gene by Alternative Rna Processing Pathways [J]. Cell, 1980, 20(2): 313-319. doi: 10.1016/0092-8674(80)90617-0
[5]	HAFEZ D, NI T, MUKHERJEE S, et al. Genome-Wide Identification and Predictive Modeling of Tissue-Specificalter Native Polyadenylation [J]. Bioinformatics, 2013, 29(13): i108-i116. doi: 10.1093/bioinformatics/btt233
[6]	doi: http://mmbr.asm.org/content/63/2/405.full ZHAO J, HYMAN L, MOORE C. Formation of mRNA 3' Ends in Eukaryotes: Mechanism, Regulation, and Interrelationships with Other Steps in mRNA Synthesis [J]. Microbiol Mol Biol Rev, 1999, 63(2): 405-445.
[7]	doi: https://www.researchgate.net/publication/14126919_Recognition_of_3%27-processing_sites_of_human_mRNA_precursors SALAMOV A A, SOLOVYEV V V. Recognition of 3'-Processing Sites of Human mRNA Precursors [J]. Comput Appl Biosci, 1997, 13(1): 23-28.
[8]	GRABER J H, CANTOR C R, MOHR S C, et al. Genomic Detection of New Yeast Pre-mRNA 3'-End-Processing Signals [J]. Nucleic Acids Research, 1999, 27(3): 888-894. doi: 10.1093/nar/27.3.888
[9]	LEGENDRE M, GAUTHERET D. Sequence Determinants in Human Polyadenylation Site Selection [J]. BMC Genomics, 2003, 4(1): 7. doi: 10.1186/1471-2164-4-7
[10]	CHENG Y, MIURA R M, TIAN B, Prediction of mRNA Polyadenylation Sites by Support Vector Machine [J]. Bioinformatics, 2006, 22(19): 2320-2325. doi: 10.1093/bioinformatics/btl394
[11]	AKHTAR M N, BUKHARI S A, FAZAL Z, et al. POLYAR, a New Computer Program for Prediction of Poly(A) Sites in Human Sequences [J]. BMC Genomics, 2010, 11: 646. doi: 10.1186/1471-2164-11-646
[12]	doi: https://www.researchgate.net/profile/Dexing_Zhong/publication/257601469_A_hybrid_model_for_the_prediction_of_mRNA_polyadenylation_signals/links/0deec52afaa44c6ce4000000.pdf?inViewer=true&pdfJsDownload=true&disableCoverPage=true&origin=publication_detail HAN J, LIU Z, ZHONG D, et al. A Hybrid Model for the Prediction of mRNA Polyadenylation Signals [J]. Conf Proc IEEE Eng Med Biol Soc, 2013, 2013: 3511-3514.
[13]	VAVRA J, LUKES J. Microsporidia and 'the Art of Living Together' [J]. Adv Parasitol, 2013, 82: 253-319. doi: 10.1016/B978-0-12-407706-5.00004-6
[14]	PEYRETAILLADE E, ELALAOUI H, DIOGON M, et al. Extreme Reduction and Compaction of Microsporidian Genomes [J]. Res Microbiol, 2011, 162(6): 598-606. doi: 10.1016/j.resmic.2011.03.004
[15]	KEELING P J, CORRADI N. Shrink it or Lose it: Balancing Loss of Function with Shrinking Genomes in the Microsporidia [J]. Virulence, 2011, 2(1): 67-70. doi: 10.4161/viru.2.1.14606
[16]	董战旗, 张军, 胡楠, 等.家蚕核型多角体病毒IE1的多克隆抗体制备及鉴定[J].西南大学学报(自然科学版), 2014, 36(10): 76-81. doi: http://xbgjxt.swu.edu.cn/jsuns/jsuns/ch/reader/view_abstract.aspx?file_no=2014-10-076&flag=1
[17]	BELKORCHIA A, GASC C, POLONAIS V, et al. The Prediction and Validation of Small CDSs Expand the Gene Repertoire of the Smallest Known Eukaryotic Genomes [J]. PLoS ONE, 2015, 10(9): e0139075. doi: 10.1371/journal.pone.0139075
[18]	STORMO G D, SCHNEIDER T D, GOLD L, et al. Use of the 'Perceptron' Algorithm to Distinguish Translational Initiation Sites in E. coli [J]. Nucleic Acids Res, 1982, 10(9): 2997-3011. doi: 10.1093/nar/10.9.2997
[19]	VAPNIK V N. Statistical Learning Theory [M]. New York: Wiley-Interscience, 1998.
[20]	晏勇.基于SKLLE和SVM的人脸表情识别[J].西南师范大学学报(自然科学版), 2014, 39(1): 55-60. doi: http://www.cnki.com.cn/Article/CJFDTOTAL-XNZK201401009.htm
[21]	李琴, 张瑾, 骈聪, 等.基于位置关联权重矩阵及序列组分的多样性增量识别剪接位点[J].生物物理学报, 2014, 30(5): 391-400. doi: http://www.cnki.com.cn/Article/CJFDTOTAL-SWWL201405007.htm
[22]	廖堃, 段江波, 周艳红.人类基因PolyA位点预测[J].计算机学报, 2008, 31(6): 927-933. doi: http://www.cnki.com.cn/Article/CJFDTOTAL-JSJX200806005.htm

图( 3) 表( 1)

计量

文章访问数: 659
HTML全文浏览数: 310
PDF下载数: 66
施引文献: 0

全文HTML

微孢子虫是一类专性细胞内寄生的单细胞真核生物，宿主范围广泛，能够寄生在几乎所有的无脊椎动物和脊椎动物上^[1].微孢子虫的细胞核含有多条染色体，核糖体为原核型的70S核糖体.微孢子虫的基因组高度减缩，绝大部分编码基因丢失了内含子，基因及基因间区的长度均变短，如感染哺乳动物的兔脑炎微孢子虫的基因平均长度为1 080 bp，基因间区长度仅为129 bp^[2].微孢子虫基因组的特殊性导致其编码基因的准确预测是一个亟待解决的问题.绝大多数真核基因具有多个PolyA位点，在形成成熟的mRNA过程中，外界环境的细微改变导致在mRNA的不同剪切位点进行选择性剪切和多聚腺苷酸化，这个现象叫做可选择性多聚腺苷酸化(APA). APA能够影响胞外信号刺激、生长与发育、细胞增殖和多种疾病的发生发展^[3-4].多聚腺苷酸化是真核细胞内mRNA转录后处理形成成熟mRNA的一个重要步骤(mRNA转录处理的3个主要步骤分别是：5'帽子结构的形成，内含子的剪切和3'端加尾巴^[5])，它影响着基因的表达，对预测基因结构有着巨大的作用.多聚腺苷酸化作用机制：切割及多聚腺苷酸化特异因子(Cleavage Polyadenylation Specific Factor，CPSF)绑定到PolyA信号序列，切割活化因子(Cleavage stimulation Factor，CstF)识别下游的U-rich和G/U-rich序列并相互作用，切割因子CFI在PolyA信号和下游作用元件之间的某个位置对前体mRNA进行分裂，最后在PolyA聚合酶的作用下添加多聚腺苷酸尾巴^[6]. PolyA位点结构特征如图 1所示.

由于PolyA位点的预测对基因结构的分析和mRNA的形成机制有着重要的作用，近年来PolyA信号的预测引起了越来越多的关注.起初，人们基于线性判别函数的原理设计出了POLYAH^[7]；1999年，Graber等利用马尔科夫模型来预测PolyA位点^[8]；2003年，通过Erpin统计PolyA位点上下游的序列中一些位置特异的二核苷酸对所出现的频率进行预测^[9]；随后开始采用机器学习的方法来预测PolyA位点，例如基于SVM的PROBE^[10]；现在人们最常用的是POLYAR方法，它把PolyA位点分成3类(PAS-strong，PAS-weak，PAS-less)进行预测^[11]，还有研究者利用神经网络进行预测^[12].然而这些方法却很少在微孢子虫基因组上尝试，主要原因在于人类基因与植物基因的研究颇为成熟，许多软件是针对研究较为成熟的人类基因或者植物基因表达偏好而设计的.目前已报道的微孢子虫有1 400多种，不同种属微孢子虫的基因组大小差异较大(2.3 Mbp~24 Mbp)^[13-15].人类基因和植物基因相较于微孢子虫基因更为复杂，然而许多方法即使能够用于病原体的研究，结果也会存在较大误差.

本文以Encephalitozoon cuniculi的基因组为数据材料^[16-17]，对其进行分析，设计了微孢子虫PolyA信号的特异性预测算法.文中提出了一种新的特征提取方法，然后基于SVM机器学习算法来对PolyA信号进行预测.具体过程是通过运用一些特征表达方法，例如位置权重矩阵(PWM)^[18]、k阶核苷酸出现频率来进行特征提取，运用主成分分析(PCA)法进行冗余特征的筛选，最后使用SVM分类器进行分类训练，从而建立微孢子虫PolyA信号的预测算法.

3. 结论

机器学习在选择性剪切位点预测、启动子的预测等应用中已经十分普遍，本文采用SVM机器学习的算法来对微孢子虫PolyA位点进行预测分析.为了使结果更加精确，根据PolyA位点附近的特征(下游是U，U/G丰富的区域)，在提取1~3阶的核苷酸出现的频率的基础上又提取了T在上游和下游出现的频率以及G在下游出现的频率来作为特征数据.使用目前应用非常广泛的特征提取方法—位置权重矩阵(PWM)，并运用核苷酸的三阶频率来计算位置权重矩阵.然后用PCA的方法进行数据降维，最后用机器学习中的SVM算法来进行分类，通过对模型的评估与实验，得出了一个较好的结果.家蚕病原体的Encephalitozoon cuniculi的基因组序列的数据集不像人类基因组序列的实验数据集那样的庞大、丰富，虽然通过PCA降维去除了一些冗余特征，但由于研究对象的实验数据的限制，本文采用PCA降维之前的特征进行实验，与决策树和KNN算法相比，SVM有较大的优势.由于微孢子虫的基因组并没有一个完整注释PolyA位点的数据库，虽然算法产生出一个良好的结果，但在这一点还是有限制的.

由于微孢子虫的基因库还不够完善，在这里用SVM算法对其进行分类预测，得出了较高的S_nC，S_p和AC.相较于在水稻基因中的研究，本算法的精确度还是比较高的.在接下来的研究中，我们将更加深入地了解微孢子虫的基因结构特征，进而对算法进行改进，使之更加精确和实用.我们希望通过运用计算机知识对微孢子虫进行PolyA位点预测，为生物学微孢子虫的研究者提供一个更好的思路.

参考文献 (22)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

微孢子虫PolyA位点的预测

1.
西南大学计算机与信息科学学院，重庆 400715

2.
西南大学生物技术学院家蚕基因组生物学国家重点实验室，重庆 400716

3.
西南大学教师教学发展中心，重庆 400715

作者简介:
孙康(1990-)，女，河南郑州人，硕士研究生，主要从事人工智能与机器学习方面的研究 .

Prediction of Polyadenylation Sites in Microsporidian Genome

计量

微孢子虫PolyA位点的预测

English Abstract

Prediction of Polyadenylation Sites in Microsporidian Genome

全文HTML

1.1. 数据集

1.2. 支持向量机(SVM)

1.3. 特征提取

2.1. 评价指标

2.2. 微孢子虫PolyA位点的识别算法比较

目录

	Sn/%	Sp/%	ACC/%
SVM算法	74.86	87.33	85.14
决策树算法	53.71	49.09	50
KNN算法	61.7	45	48.2

留言板

微孢子虫PolyA位点的预测

1. 西南大学 计算机与信息科学学院，重庆 400715 2. 西南大学 生物技术学院 家蚕基因组生物学国家重点实验室，重庆 400716 3. 西南大学 教师教学发展中心，重庆 400715

作者简介: 孙康(1990-)，女，河南郑州人，硕士研究生，主要从事人工智能与机器学习方面的研究 .

Prediction of Polyadenylation Sites in Microsporidian Genome

计量

出版历程

微孢子虫PolyA位点的预测

English Abstract

Prediction of Polyadenylation Sites in Microsporidian Genome

全文HTML

1.1. 数据集

1.2. 支持向量机(SVM)

1.3. 特征提取

2.1. 评价指标

2.2. 微孢子虫PolyA位点的识别算法比较

目录

1.
西南大学计算机与信息科学学院，重庆 400715

2.
西南大学生物技术学院家蚕基因组生物学国家重点实验室，重庆 400716

3.
西南大学教师教学发展中心，重庆 400715

作者简介:
孙康(1990-)，女，河南郑州人，硕士研究生，主要从事人工智能与机器学习方面的研究 .