分析测试百科网 > 行业资讯 > 技术原理

第二代高通量测序技术使用的DNA装配工具

2020.7.13

第二代高通量测序仪实现了较廉价和快速的DNA测序方法，但是它们有一个共同的缺点即读出序列（reads）太短，大约在几十个bp到几百个bp。与生物的染色体长度相比，这样长度的reads给下一步的装配工作带来麻烦。看似种类繁多的生物界其实只使用4种核苷酸，分别为A,T,G,C。这意味着DNA序列中会有数量极为庞大的片段存在重复的序列。因此装配过程中有时很难判断短reads在原序列中的位置，reads A可以放到C，D，E等多个位点上，reads B看似可以放在D，G，H等位点上。这类的工作靠手工无法完成，需要使用计算机按照一定的规则和要求来装配reads。下面介绍一些非设备生产厂商提供的装配软件和特点。 1. 软件名：Cross_match，作者：Phil Green, Brent Ewing and David Gordon 网址：http://www.phrap.org/phredphrapconsed.html CROSS_MATCH用于蛋白质和核酸的序列对照，使用Smith-Waterman-Gotoh算法。通过对递归关系的改进提高了运行效率。适用于1. 按照参照序列为reads排序。2. 比较由不同的方法得到的重叠群（contig）。3. 比较完成装配后重叠群和粘粒（cosmid）的序列。 2. 软件名：Exonerate ，作者：Guy S. Slater and Ewan Birney 网址：http://www.ebi.ac.uk/~guy/exonerate 采用启发式渐进算法完成排序运算，避免了遍历耗时长的缺点，同时也解决了启发渐进算法难以执行的问题。 3. 软件名：MAQ，作者：Heng Li 网址：http://maq.sourceforge.net MAQ依照参照序列对reads快速装配，推断出包括SNPs、插入、删除在内的各种变体。在排序阶段，首先按照最低的错配值（mismatch score）搜索无空隙的排列。为提高速度MAQ只采用在前28bp中最多存在2个错配的reads。 MAQ在设计时就考虑处理人类DNA序列的需要，对硬件要求低笔记本电脑就可以轻松运行。为了便于查看结果，MAQ同时提供一个基于OpenGL的浏览工具MAQview。 4. 软件名：Mosaik，作者：Michael Strömberg and Gabor Marth 网址：http://bioinformatics.bc.edu/marthlab/Mosaik MOSAIK能够读取范围较广的reads从几十bp到上百bp，按照Smith-Waterman算法，依据模板产生有空隙的排列。另外，MOSAIK支持多线程运行，最多可有8个CPU。可以全面支持3大主流测序仪Roche 454, Illumina, AB SOLiD，试验性地支持Helicos。 5. 软件名：BWA，作者：Li H. and Durbin R 网址：http://bio-bwa.sourceforge.net/ Burrows-Wheeler Aligner (BWA)允许采用较长的参考序列，而排列相对较短的核苷酸序列。BWA执行2种算法BWA-Short和BWA-SW。BWA-Short适用于短于200bp的reads，后者适用于大约100kbp的长度。两者均能排列出有空隙的序列，虽然BWA-SW也能工作于较短的reads，但是它的敏感度较低，反之亦然。 DNA装配工具种类繁多，以上介绍了几种比较典型的。此外还有RMAP，SHRiMP，SOAP，SSAHA2，SXOligoSearch等等，限于文章的篇幅这里就不一一介绍了。那么如何选择一种适合自己需要的软件呢？涉及到以下几种因素。 1. 系统运行时间，图一是几种软件对不同长度reads排序的时间消耗。

图一（By Bala et al）

2. 系统硬件的要求，下图是软件消耗内存大小的比较。

图二（By Bala et al） 3. 准确度上的差异，比较结果见下图。

图三（By Bala et al） 4. 是否能从事查找SNPs、SV等方面的工作。 5. Solexa，454，SOLiD测序结果的输出格式并不相同，注意有所区别。很少有一款软件可以支持所有格式的。 reads的装配还牵涉到另一个至今未妥善解决的问题。我们把基因组的长序列打断（shortgun method），因为不知道整条基因组序列是如何排列、如何区分来自不同染色体的reads。同时现有的技术又不允许一次测完整条基因组序列。必须按照一定的算法，使用计算机高速计算的能力把这些短序列组装起来还原成原来的序列（de novo assembly）。因为没有参照序列，很可能组装后的序列与原序列大相径庭。一种称作为paired-end的序列测序方法给出具有固定间距的reads。如下： It is a very long human genome, so much longer than E.Coli’s. It i*****ery *****huma*****ome,*****uch *****r th*****Coli*** 一个聪明的办法，却没解决所有的难题。因为基因组中含有大量的重复序列（repeats），多态性变异（Polymorphism），测序错误（Sequencing error)，一条序列存在很多可能的路（图论），或者回环等。见下图。

针对这些问题，已取得较满意结果的部分软件如下： 1. 软件名Edena，作者：David Hernandez et al 网址：http://www.genomic.ch/edena 2. 软件名SHARCGS，作者：Juliane Dohm et al. 网址：http://sharcgs.molgen.mpg.de 3. 软件名SSAKE，作者：René Warren et al. 网址：http://www.bcgsc.ca/platform/bioinfo/software/ssake 4. 软件名VCAKE，作者：William Jeck 网址：http://sourceforge.net/projects/vcake 5. 软件名Velvet，作者：Daniel Zerbino and Ewan Birney 网址：http://www.ebi.ac.uk/%7Ezerbino/velvet 目前看来能最终解决组装问题的希望寄托在第三代高通量单分子测序技术的问世上，提高每个reads的长度才是王道。在生命探索的征途上，科学家们任重而道远。

互联网

喜欢作者我要约稿