关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

校正DNA测序数据误差的一种新工具

2014.9.05

  在过去的几年里,下一代DNA测序的快速发展,已经彻底改变了生物学和生态学研究。DNA测序成本已经大幅下降,测序机器已经成为一种标准的实验室设备。低成本的测序技术使得研究人员能够发现让一些人更易受疾病影响的基因差异;探索人类肠道或海洋底部微生物群落的基因组成;并快速识别危及生命感染的致病微生物。

  但是,虽然测序成本已经下降,但是所产生的数据精确度改进还很缓慢;所产生的碱基中有大约1%仍然被称为不正确。为此,生物信息学界构建了专门的误差校正工具,利用测序数据中的固有冗余序列,来查找和修复miscall及其他测序误差。试验结果表明,将最好的误差校正工具与标准的生物信息学分析流程相结合,可以产生更高质量的基因组数据和更准确预估的基因变异。

  然而,准确地校正误差是一个难题,主要是因为基因组的重复性和模糊性。校正简单的碱基置换(substitution)误差是很容易的,例如,当50个序列读长(reads)确定一个给定的碱基是A,只有正在校正的读长确定它是G。通过下游工具,如assemblers和aligners,可以很好地处理这种简单的误差。挑战在于,当有多种可能的修正——如当50个读长确定它是A,49个读长确定它是G,而正在较正的读长则确定是T时,我们该如何正确地校正,因为每当读长落在基因组重复区末端时都会发生这种情况。要进行这种校正,就必须没有被测基因组的任何序列知识,并且关于哪种修正“正确”的唯一线索来自于序列数据本身。

  澳大利亚悉尼大学的研究人员,与英联邦科学与工业研究组织(CSIRO)的同事,刚刚发布了一种新的误差校正工具,他们称其为“Blue”。Blue是一种高性能的C#应用程序,可在Windows系统、Mono on Linux和OS X运行。相关研究结果发表在最近的《Bioinformatics》杂志,测试结果表明,Blue明显快于其他可用的工具——特别是在Windows系统中,它也更加准确,因为它能递归地评估正在修正的读长背景中的选择性修正。

  Blue另一个不寻常的特点是,它能纠正所有三种类型的可能误差(substitutions、deletions和insertions),使其适合用于Roche 454和Life Technologies Ion Torrent系统所产生的测序数据。Blue还可让我们校正与另一组读长具有一致序列的一组读长,这种能力已被用来纠正少数长的(昂贵的)Roche 454读长——与来自更便宜的(但是更短)的Illumina读长数据集具有一致序列。这种“交叉校正cross-correction”方法已被用来非常有效地提高几种reference assemblies的质量,大小从细菌到飞蛾和草不等。

推荐
关闭