关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

DNA测序技术的现状和发展(十二)

2020.7.13

2.1.3 剪切后的短片段作图软件包

要将RNA的逆转录片段cDNA重新定位到基因组当中需要更加复杂的专业化算法。要将不同外显子经过剪切拼接之后生成的RNA短片段重新定位到基因组中和将一个外显子生成的RNA短片段重新定位到基因组中是完全不一样的(图14)。

在RNA逆转录产物cDNA的定位操作中用到的诸如ERANGE(http://woldlab.caltech.edu/rnaseq)这类软件 包都会用到已知基因的外显子位置和内含子位置信息作为参考。这样,ERANGE软件包就能“横跨”多个外显子构建新的参考序列,然后再调用Maq程序或者 Bowtie程序将剪切后的RNA片段定位到参考序列中了。因为这种方法不能发现新的(人们未知的)剪切模式,所以有些科研人员就使用了一种“机器学习法 ”(machine learning method)来预测新的剪切模式。该方法借助现有的参考序列注释信息在统计模型(statistical model)上进行过演练。与此相反,TopHat软件包(http://tophat.cbcb.umd.edu)则不需要借助任何注释信息,它使用的 是Bowtie软件来发现包含有短片段的外显子,然后再将余下的短片段定位到前面发现的各种外显子连接体当中。还有一款程序G-Mo.R-Se(http://www.genoscope.cns.fr/externe/gmorse)使用的也是这种策略,不过它是借助RNA测序数据而不是 通过Bowtie软件来发现外显子的。

2.2 局限性及存在的问题

现有的用于短片段作图的方法都有其各自的局限性。比如,Maq和Bowtie软件在处理插入或缺失片段时就几乎不起作用。

有些软件,例如SHRiMP(http://compbio.cs.toronto.edu/shrimp,图15)就能支持ABI公司的“彩色空 隙(color space)”测序结果,但大部分软件都是不支持该结果的。剪切后短片段作图软件同样存在类似问题,而且它们还有自己的特殊问题。例如,基于注释信息的软件当然最多只能获得和注释信息相当的结果,但很多物种的全基因组注释信息都仅仅只是同源预测信息或计算机预测信息。如果“机器学习方法”受到错误的注释信息“操练”的话,也不会得出好结果。

因此,对于短片段作图软件的开发设计人员来说,还有很多问题需要去解决。所有的测序仪器生产厂家都在努力得到更长的测序片段结果,现有的短片段作图 软件能应付这些“大家伙”吗?Maq、Bowtie以及其它几种短片段作图软件都可以处理长度超过100bp的测序片段结果,但这只是在特定的情况下,而 且只有原本就是针对长片段设计的软件,例如BLAT才能更好地处理这类测序结果。另外,如果测序的样品物种序列和现有的参考序列差异很大,那该如何调整作 图软件的参数呢?软件能够自动调整参数吗?这样做出来的图质量又如何呢?上述这些问题的解决方案都依赖于采用的检测方法和分析范围。不过,随着技术的进步,相信所有这些问题很快都会被攻克的。

原文检索:Cole Trapnell & Steven L Salzberg. (2009) How to map billions of short reads onto genomes. Nature Biotechnology, 27(5): 455-457.

小词典1

“参考”基因组(‘reference’ genome)

每一个种内的物种的基因组都有数量一定且相对恒定的基因和基因排列方式,但由于某些基因或基因片段的突变形成了不同的物种。通常可以在种内以某一代表性物种的基因组作为模式基因组,以利于对其它物种的研究。这种“某一代表性物种的基因组”就是“参考”基因组了。

3. 更快——只需15分钟、更便宜——只需100美元的人类基因组测序技术即将面世

很快,我们就会看到最新的人类基因组测序技术问世。有了这种新技术,人类基因组测序的费用将大为降低,平均每个样品只需要花费 100美元。同时,该技术的测序速度要比目前市场上广泛应用的第二代测序技术快2万倍,而且我们可以借助该技术实时的观测到人类基因组DNA被扩增的过程。

Stephen Turner是太平洋生物科技公司(Pacific Biosciences)的首席技术官(Chief Technology Officer),他表示,最新的商业化单分子实时测序仪(Single Molecule Real-Time sequencing,SMRT)将于2010年上市。

十年前,塞莱拉基因公司(Celera Genomics)和人类基因计划组(Human Genome Project)都花费了数年的时间才得到完整的人类基因组序列图。但到了2008年,由于有了新一代的测序仪,所以我们只用了几个月的时间就获得了James Watson的个人完整基因组序列。

现在,有了SMRT测序仪,Pacific Biosciences公司希望可以用这款测序仪在几分钟之内完成人体基因组测序的工作。

我们在进行人类基因组计划工作时采用的研究策略,就是利用了细胞复制DNA的天然机制。

使用DNA聚合酶复制DNA链的方法获得了数十亿计,各种长度的DNA片段分子。然后在每一个片段末端都加上一小段荧光标记分子,该荧光标记分子只 能对DNA链末端最后一个碱基进行标记,然后根据DNA片段的长度将这些分子排列整齐,我们就可以像读书一样,按照长短顺序把DNA序列末端的碱基一个一个给读出来了。

不过SMRT测序仪采用的并不是这种方法——等DNA聚合酶完成了复制工作之后再判读序列的方法,该技术采用的是实时对DNA聚合酶的工作状态进行 监测的方法,每一个DNA链分子都被吸附在小孔的底部,在DNA聚合酶复制的同时,SMRT测序仪就会实时读出每一个碱基,这样就能得到完整的序列。

在SMRT测序仪使用的每一个碱基上都带上了特有的荧光标记,一旦某个碱基掺入了新合成的DNA链,就会发出特异性的荧光信号,实时探测仪就可根据该荧光信号判断出该位点是A、C、G、T中的哪一个碱基。

发明SMRT技术的科研人员们希望能够将该技术进一步改进,成为芯片式的多通道并行处理测序仪,这样还可以进一步加快测序速度。

“如果我们能同时处理100万个片段分子,那么我们就能够在15分钟之内获得完整的人类基因组序列图,”Turner说道。

SMRT测序仪在提高测序速度的同时还能够提高测序的准确率。由于用SMRT测序仪进行测序时出错是随机发生的,也就是说每个位点出错的概率都一样,没有哪个位点会更容易出错,因此如果进行多次重复测序应该能够提高准确率。

SMRT测序仪刚刚在第51界美国医学物理学家协会年会(Annual Meeting of American Association of Physicists in Medicine)2009年工业物理学大会(Industrial Physics Forum)上第一次亮相。

原文检索:http://www.freshnews.in/coming-soon-15-minute-100-human-genome-sequencing-157761

 


推荐
热点排行
一周推荐
关闭