关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

震惊!Genbank参考基因组序列多处错误!

2014.11.21
banquan12.jpeg
 震惊!Genbank参考基因组序列多处错误!

  随着基因组测序技术的飞速发展以及测序成本的快速降低,全基因组数据也在急速增加。尽管参考基因组数据是非常有价值的资源,但是由于测序过程中的外源污染或者研究者对数据组装方法的误用,使得基因组数据面临很多问题。

  近日,约翰霍普金斯大学的研究者在《Peer J》上发表一项研究,发现Genbank上存储的动植物基因组草图中存在细菌及病毒污染。这些物种间交叉污染会给微生物分析的发展造成很多问题,例如,即便在动物测序数据中出现部分基因序列可以证明生命起源,但实际上这部分序列可能是来自是微生物污染。该研究的另一个惊人的发现是,在奶牛和绵羊的基因组草图中发现了淋球菌!

  尽管Genbank上存储的基因组被认为是完整的,但一些细菌的基因组其实是含有多处DNA插入错误的草图。从1995年,测序获得了第一个细菌全基因组——流感嗜血杆菌基因组,到现在,Genbank数据库上存储了大约2万7千个原核生物基因组以及1千6百个真核生物基因组。但绝大部分数据是基因组草图,序列中存在多处gap(漏洞),而后续分析都是基于这些不完整的基因组草图。如果不深入分析判断,很可能认为只是基因水平转移引起这些错误,因此需要更科学的、正确的分析基因组中出现的错误。

  基因组测序的第一步是提取DNA,根据物种的不同,获取DNA的方式也是各式各样。对于动物,通常从血液中提取DNA,但是像昆虫这样的微小动物,需要从整个个体中提取测序所需的DNA。从DNA提取到测序,都存在污染的可能性。计算机对测序原始数据的过滤只能去除例如大肠杆菌一类实验室常见污染,对于其它种类的污染是很难去除的。

  需要强调的是,不仅要对即将发表的基因组进行仔细筛查,还包括那些已经发表的数据。

推荐
关闭