关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

DNA测序技术的现状和发展(十一)

2020.7.13

2.1.2 短片段作图软件

Maq和Bowtie(见表16)都属于上述提及的程序。它们使用的是一种称作“建立索引(indexing)”的策略。同时,人们也对大量的DNA序列建立了一份索引,借助这份索引就能快速地找到其中的短DNA片段了。Maq软件是基于一种直接的但是很有效的策略——空位种子片段索引法(spaced seed indexing)(图12a)。它将一个短片段(read)分成了4条长度相等的更短的片段——种子片段(seed)。如果整段短小片段(read)可以与参考基因组序列完全配对,那么很显然所有的种子片段(seed)也理所应当地应该与参考基因组序列完全配对。但如果其中有一处错配,例如SNP,那么肯定有一条种子片段无法与参考基因组序列完全匹配。依次类推,如果出现了两处错配就会导致一条或两条种子片段无法与参考基因组序列完全匹配。因此,对所有种子片段两两组合后的片段(共有6种组合方式)进行比对,就有可能找出该短小片段在基因组中最有可能的位点。Maq软件采用的这种“空位种子片段索引法 ”(spaced seed indexing)作图时的效率非常高。

Bowtie软件采用的则是另一种完全不同的策略,该策略借鉴了Burrows- Wheeler转换(Burrows-Wheeler transform)这种数据压缩算法技术,将完整的人类基因组序列索引压缩到不到2GB大小(这是当前主流台式机甚至是笔记本电脑都能达到的水平),而空位种子片段索引法至少需要50GB。Bowtie每次都只把一段短片段序列中的一个碱基与经Burrows-Wheeler转换压缩过的参考基因组序列进行比对(图12b)。经过这种连续的比对,最终也能找出这段短片段在参考基因组中的定位。如果Bowtie软件发现短片段中的某个碱基在参考基因组中没 有很好地配对,那么软件就会退回到上一个碱基重新进行比对。实际上,Burrows-Wheeler转换使得Bowtie软件通过碱基逐个比对,直至完成全长短序列比对的方法解决了短序列作图的问题。从本质上来说,Bowtie软件使用的算法要比Maq采用的复杂得多,但Bowtie软件却比Maq软件分析的速度快30倍。

Bowtie软件和Maq软件的默认模式中至多都只会允许两个错配位点,不过有时有 些用户需要允许更多的错配位点存在。Bowtie软件和Maq软件能够分析的短序列长度范围在20bp~40bp之间,它们都经过优化设计以使其适合用于人类基因组再测序计划(human resequencing project)。不过,现在Illumina公司最新的测序仪已经能够获得长约100bp的“短”片段序列,还有一些测序项目,例如细菌或真菌基因组测 序项目等获得的片段序列与目前已经测得的类似物种全基因组序列之间存在着较大的差异。再加之随着新测序仪的不断涌现,测序结果的质量也在不断提高,但这些 测序结果却极易受到各种因素的影响,例如样品文库的准备、测序操作步骤、甚至是放置测序仪器实验室的温度等等。鉴于此,面对上述这些新出现的“问题”,人 们也应该采取相应的措施,调整Maq软件和Bowtie软件的各种参数使之适应这些新情况。

表16列出的是几种新的开放源代码的短片段序列作图软件,它们的安装和使用都很简单。

Bowtie软件包中包括预置的大肠杆菌基因组索引和部分大肠杆菌短片段序列。要使用该软件分析数据只需输入下面的命令就会生成一个表格式的报告,给出每一个匹配短序列的编号、在参考基因组中的位置、以及发生错配的位点个数和具体位置。

bowtie e_coli reads/e_coli_1000.fq

在Maq软件中输入以下命令也会得到同样的结果。

maq.pl easyrun -d outdir
reference.fasta reads.fastq

对于一次实验来说,短序列片段能否与参考基因组相匹配实际上取决于很多因素。假设被测序的DNA片段中几乎没有错配位点,大多数作图软件也只能定位 出70%~75%的短片段序列。这个结果和使用Sanger测序法获得的80%的结果比起来低得令人吃惊,说明现在第二代测序技术还不成熟。这提示人们,很多短片段都需要与参考基因组中的多个位点进行比对,而大部分的作图软件都只会给出短片段在参考基因组中的一个匹配位点。

有了序列定位的软件,接下来就可以了解这些短片段具体在参考基因组中的什么位置了,同时也可知道SNP都位于基因组中的什么地方。SAM软件包能满 足这些要求。SAM软件包(http://samtools.sourceforge.net)包括一体化的碱基调用和浏览器(base caller and viewer),它能使用Maq和Bowtie两种分析软件。

实际上,大部分短片段作图软件设计的初衷都是为了服务于人类全基因组再测序工作,但是调整软件参数之后,它们也能应用于其它方面。Maq和 Bowtie这两种分析软件的操作手册都写得非常详细,它们给出的备选方案多到“吓人”的程度。现在还出现了越来越多的短片段作图软件(表16),不过每一款软件都无法达到十全十美的境界,而且各有偏重,这就给人们选择软件及其配置参数带来了麻烦。幸运的是,人们能够得到帮助。SeqAnswers message board(http://www.seqanswers.com,图13)就是一个非常好的论坛,它是一个短片段作图软件开发人员经常光顾的论坛。最流行的SeqAnswers线程一般都包括目前用于初步分析的软件和短序列数据可视化处理的软件一览表。

 


推荐
热点排行
一周推荐
关闭