关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

细胞遗传学家的新工具和新希望

2014.3.27

  细胞遗传学意在确定一个基因组中与众不同的结构特征。这说起来容易,做起来难。多年来,研究人员手头的工具很有限,只有吉姆萨染色、FISH和DNA芯片。新兴的DNA测序技术将细胞遗传学的分辨率提高到前所未有的水平,缩小了分子细胞遗传学和分子遗传学之间的距离。

  然而,测序,想说爱你不容易。测序读长仍然太短,难以直接回答细胞遗传学的问题。当然,新的策略在不断开发中。在此,我们展望一下基因组测序在发现染色体结构变异(CV)上的前景,尽管有些区域目前仍无法解析,但随着技术的发展和进步,终究会突破。

  分子细胞遗传学的技术

  吉姆萨染色、核型分析等技术适合观察Mb规模的染色体畸变,如非整倍体和大的重排,这可在显微镜下观察到。利用荧光原位杂交(FISH)技术,研究人员可检测到低至500 kb的结构差异。

  DNA芯片的引入实现了拷贝数变异和染色体结构变化的检测,其分辨率低至5-10 kb。不过它们并不能提供重复拷贝的位置信息。它们也不能检测平衡易位。或许更重要的是,芯片在高度重复的序列上表现不太好,因而无法分辨异常序列的断裂点。

  我们还有另一个选择,新一代测序(NGS)。据Illumina公司生殖与优生健康的市场部经理Rich Shippy介绍,NGS可检测所有的畸变类型,包括平衡易位、倒位和序列水平的变异。他认为,与芯片相比,NGS能更加精确地定位CNV,达到近乎单核苷酸的分辨率。

  NGS分析的策略

  在开展分子细胞遗传学分析时,测序的能力无疑取决于多个参数,包括文库大小、读长、测序深度以及待分析序列的独特性。当然,它还取决于分析类型。

  华盛顿大学的Evan Eichler教授指出,当测序深度达到25倍时,就能可靠地检测低至2-3 kb的缺失和重复,比其他方法至少高了一个数量级。深度读取能够确定绝对拷贝数,但它不能判断插入序列或倒位,也不能区分重复序列是串联还是分散在基因组中。

  为了确定重复的位置,研究人员主要依赖于双端测序的方法,它从DNA序列两端开始测序,其正向和反向 read之间的固定距离就代表插入片段的大小。Eichler解释道:“你要找的是固定在某一位置的一组read,以及固定在另一位置的一组相反的 read。就易位而言,一组可能定位到10号染色体,而另一组定位到20号染色体。那么我抓到了断裂点。”对于倒位,配对的read可能位于相反的方向。

  研究人员也采取split-read的策略,以寻找那些一个read能定位到参考基因组,而另一个read不能定位(因为它位于重排断裂点的另一侧)的序列。随后算法会搜索参考基因组,寻找那些未定位read的定位点。这种分析有望检测更小的插入和缺失。

  另一种方法就是序列组装,其中read被放在一起,通过合并重叠序列而形成连续的contig。这通常依赖于de novo和本地组装算法的组合,因其序列长且足够准确,被认为是最有希望确定任何染色体畸变断裂点的方法。

  读长越长,希望越大

  Evan Eichler教授指出:“如果与细胞遗传学易位、缺失、重复或倒位相关的所有断裂点都定位在单一序列内,那就不会有什么问题。但许多易位都定位到大的、高度相同的重复序列中,这也是系统无能为力的地方。我们没有足够大的库,或者说单个read不够长。”

  所谓的第三代测序能提供明显更长的read,有望解决这一问题。例如,Pacific Biosciences的最新试剂带来了8,500 bp的读长,甚至有相当一部分read超过30,000 bp。这些read可跨越许多重复区域,将它们定位到参考基因组中。

  Illumina的Moleculo技术也提供了一种单体型策略,但不是基于长的read,而是统计学和条形码。该公司最近在《Nature Biotechnology》上介绍了这种方法,名为“统计学辅助的长read单体型分析(SLRH)”。利用SLRH,他们能够将三个人类基因组中 99%的单核苷酸划分到长度为0.2-1 Mb的单体型块中1。

  当然,更长read的最终目标是从头开始构建出一个基因组。毕竟,这才是分子细胞遗传学家所追求的,基因组结构的准确描述。Eichler认为:“这是此领域的圣杯:如果你拿到一个基因组,测序,并无需任何指导将其准确组装,那么你就大功告成了。所有的分子细胞遗传学家将失去工作。你会了解所有的倒位、缺失和重复。”

  这一天可能不会太遥远。在上个月召开的基因组生物学技术进展大会(AGBT)上,Pacific Biosciences宣布了首个只利用PacBio read的de novo人类基因组组装。利用平均读长为7,700 bp的reads,他们组装了54x的基因组,据介绍,读长将在一年之内达到20,000 bp。当这一切实现时,细胞遗传学的答案可能唾手可得。

推荐
热点排行
一周推荐
关闭