关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

基因数据分析的主流软件

2019.12.16

基因组测序

在过去的几年中,许多生物的基因组完成了测序工作,如何对如此庞大的原始序列信息进行分析和应用,正是现在最为棘手的问题。大量的基因预测软件和在线工具应运而生。如何广泛而深入地了解并能有的放矢地利用这些工具,已经成为21世纪分子生物学家的必修课。

随着大规模EST和cDNA序列信息的获取,那些基于表达序列同源范围的程序,在基因组注释中的作用日益显著。即使在稀少基因或组织特异性表达的基因中,基因组序列的相关性信息也颇具参考价值。所以利用基因组序列的比对来扩充基因的信息是不可获缺的。特别是在对人类基因组做注释时,与那些相对完整的脊椎动物基因组,如小鼠和鱼类的基因组比较是必不可少的步骤。

许多基因组测序计划正在进行之中,尽管仍存在急需解决的问题,比较基因组学方法(comparative genome approach)被认为是最有应用前景的方法。该方法不仅在基因预测中举足轻重,而且在鉴定调控基因、探索垃圾基因(junk gene)等方面的作用也不容忽视。基因预测软件的用户应该认识到,软件预测结果的可靠性和置信水平都有较大程度的提升。但这些毕竟是预测的结果,分子生物学家,总是试图证明真实存在的蛋白质,及其功能和在组织中的表达状态。

当前,已有超过60种真核基因组测序计划在进程之中。然而生物学方面的相关注释还远不能匹配如此汹涌而至的原始序列数据。当务之急是,研发出更多的准确而快速的分析工具,特别在寻找基因、确定其准确功能等应用方面。许多基因预测程序都可以免费共享。当前,几乎没有一个完美的程序可以解决用户们的所有问题。这就需要用户最大程度地利用主流程序的整合优势。

基因数目预测的主流软件

10年前,研究人员开始预测人类基因的数目,这个数目在很长时间没有明显改变。几年前,最多的预测是100,000;当人类基因组完成测序时,这个数目降至30,000。现在有降至20,000左右。研究人员相信:充分考虑人类的基因组序列和其它生物的基因组序列,可以做出近似的估计。Affymetrix 的计算科学家David Kulp称:“很难对基因数目的诸多估算,做出正误的判别。”分子生物学家正在寻找比预期设想的基因更小的基因。在某种情况下,就一段编码的序列,很难确定是一个基因或是两个基因的重叠。学术界仍不能完全肯定地归类那些编码多种蛋白质的基因,或是仅编码RNA的类似基因的序列。

早在20世纪30年代,George Beadle和Tatum认为每个基因仅仅编码一个蛋白质。几十年来这个说法仍旧沿袭。现在则认为这样的理论过于简单。一个基因可以编译成多种蛋白质,甚至可以转录成RNA。人类基因组中编码蛋白质的区域,称为外显子,约仅占总体DNA的2%。一些简单的基因仅含有一个外显子。有些基因没有功能,称为假基因pseudogene:是与已知基因在不同部位有密切相似性的基因,但由于结构上有加入或缺失,而阻止了正常的转录或翻译,以致使它们无功能。这样就会增加基因预测的数量,造成许多假阳性的结果。

英国剑桥的EBI(European Bioinformatics Institute)的基因预测专家Ewan Birney指出:“目前预测的人类24,500个基因中,有将近3,000个基因可能为pseudogene”。华盛顿大学的计算科学家Michael Brent称:“如果在基因预测中准确地考虑到假基因的存在,那么预测的结果会更为精确。”

目前广泛应用的基因预测方法是:“ab initio”方法,即通过探索DNA序列中特异的区域,如基因的起始区域和终止区域,来进行基因预测。另一种方法是比较基因组学的方法,即根据与已知的蛋白质或基因之间的相似性来发现新的基因。Ab initio程序对于那些类似于基因的序列,也给予归类,所以总的预测数量要高出实际值;而比较的方法不考虑无相似关系的基因,所以估计的基因数目偏低。

大多数人所熟知的一个ab initio程序叫做Gene Modeler是1990年新墨西哥洲大学的Chris Fields和Cari Soderlund研发的。当时是被应用在线虫Caenorhabditis elegans的基因探寻过程中。那时出现的其它软件都稍逊于Gene Modeler。例如,BLAST、FASTA能将DNA序列翻译成蛋白质序列,并与已有的、蛋白质数据进行比较。

这个领域进展迅速,涌现出许多具有专业软件编写技能的预测人员,包括采用Gene Modeler的方法创建GeneID来寻找人类基因的Guigo,以及编写GeneParser软件的Eric Snyder。GeneParser采用了一个称为动力学程序的技术,将外显子与不编码蛋白质的内含子区分开来。Rockville的TIGR(The Institute for Genomic Research)的Steven Salzberg自从1994年,利用ab initio的方法,来改进寻找人类基因的程序。

随后的几年里,他们又研发出几个新的程序。其中的一个是与更为详尽的背景信息相整合,进行基因预测。它可以更加清楚地预测外显子和内含子的大小。另一个程序是同时作用于两个完整的基因组,由计算机完成两者的比较。许多研究人员更倾向于后种方法,原因是相似的物种,更为倾向于拥有相似的基因序列。National Human Genome Research Institute的遗传学家Eric Green说,他及他的同事,已经从13个物种中进行了DNA比较,包括狗、牛、鸡以及河豚鱼。2003年8月14日的Nature上发表了他们对基因、以及调控区域的比较结果。

GENSCAN就是一个经典的基因预测软件。1996年由MIT的Chris Burge开始编写这个软件程序。当时,Burge的许多同事主张采用比较的方法,他们随机选取一个最新测序基因组中基因的DNA序列,与数据库中已存在的基因进行联配。但是Chris Burge认为:“利用人类基因组所获知的信息,可能不能发现某些新的基因。” 他还积极吸取了加州大学计算机科学家David Haussler的经验。很多年前,Haussler就意识到基因预测的问题与语言学家们所遇到的问题相类似。语言学家总是试图寻找语言中句法、语法,以及其它某些特征。

Haussler和其他人都建议从语言学中借助一种叫做Hidden Markov Model,HMM隐马尔科夫模型的统计工具。在序列分析中,HMM通常是多重序列对位排列的概率模型,但也可用于单一序列的周期性模式的模型,比如代表发现基因外显子的模式。在一个多重序列对位排列的模型中,用被称作状态的符号的概率分布代表排列中的每一列字母,插入和缺失用其他状态表示。然后在模型内沿特定的路径从一个状态进入另一个状态,试图匹配一条给定的序列。从每一状态选出下一个匹配符号,记录其概率(频率)和从前一状态进入特定状态的概率(过渡态概率)。

状态与过渡态的概率相乘就得到给定序列的概率。一般来说,HMM是一个对给定字符的统计模型,类似随机状态机器,从每一个状态过渡到另一个就产生一个字符。状态间的过渡态用过渡概率确定。HMM已成为许多基因预测算法的标准。Burge指出:目前存在一整套的能够区分部分基因的模式和规则。比如,几乎所有的基因在起始和终止区域存在特异的序列。外显子的末端通常也存在一个特征序列,可以指导相关的酶切除外显子下游的内含子。Burge已经利用这些规则分析了几百个已知外显子和内含子位置的基因序列。


推荐
热点排行
一周推荐
关闭