关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

构建详细全面的染色体互作图

2012.9.29

  染色体构象捕获(3C)技术正在改变我们对于基因组空间组织构架的理解。然而目前推测染色质相互作用,却受限于两个方面的困难:其一是生成高分辨率信号,其二是从多个背景来源中分辨信号。

  近期两项最新的研究报道了这些方面的技术进展,第一篇文章描述了一种高分辨率4C-seq 新型工作流程和计算通道,第二篇则报告一种新策略,能同时消除Hi-C数据中多个背景来源。

  上篇: 两篇Nature技术文章介绍基因组组织

  重要的是,为了能最大限度地增加互作片段的数目,研究人员两轮消化采用的是具有四种碱基特异性的限制性内切酶,从而可用片段池中的片段数,相较于之前采用的six-base切断法提高了十倍。

  可能会有人认为减少片段大小就足以提高分辨率了,但是更高的分辨率也意味着更多的背景误差。比如说,4C-seq技术降低了初次限制性片段的平均长度,也就相应的增加了不包含二次限制性酶切位点片段的初次片段比例。所以最终的溶液里有消化了两次的一些片段,也有只消化了一次的片段。由于PCR扩增对于较短的片段更有效,因此读取数据就会出现系统误差。

  此外,实验覆盖率也会受到其它多个误差的影响,包括限制性内切酶的效率和基因组测序片段的可作图性,所以说改进实验需要两手抓,需要更加严格的统计学处理,消除数据误差的影响。

  Werken等人提出了一种纠正误差的计算机框架,他们将限制性片段根据相似特性进行分类,比如GC含量和片段长度,期间采用两个互补的策略,纠正接触强度。对于远程相互作用,研究人员预计了每个片段类的覆盖背景率,分别计算各类观察到的和预期的片段覆盖之间的富集。而对于近程相互作用,研究人员又采用了另外一种不同的方法,因为接触范围随着序列距离变化大。但是因为不同片段类的覆盖谱代表着相同的相关分布,所以研究人员能在位数正常化后进行比较。

  研究人员通过三个不同的基因位点验证了这种技术,这三个位点分别是β-珠蛋白,Oct4和SATB1。他们在150kb β-珠蛋白区域中检测了大约1,000片段末端,将其与以前的实验报道进行比较,进一步证明了同一位点上全基因组范围内的互作图谱具有高度重现性。这些实验表明高清晰度4C-seq是一种全基因组范围内,筛选包含目标启动子在内的调控DNA元件,强大有效的直接方法。

  第二篇文章“Iterative correction of Hi-C data reveals hallmarks of chromosome organization”,是由麻省理工的Mirny和Dekker研究组完成,主要聚焦于低分辨率所有区域中的全基因组范围相互作用。

  与4C-seq方法一样,HI-C数据也受到多个技术和生物学来源误差的影响,要纠正这些误差很困难,不仅是因为必须预料到所有可能的误差来源,而且还由于某种误差的大小和方向会根据不同实验方法而变化。

  为了应对这一挑战,Imakaev等人开发出了一个集成方案,可以在未知这些技术或生物来源的前提下,消除Hi-C数据中的许多误差。换句话说,通过一种无偏差方式消除了误差。

  Imakaev这篇文章的核心假设是,在一个无误差实验中,所有的基因组区域应该通过同一“可见性”进行分析,这样实验中观察到基因组区域的概率就相同了。而且作者假设每对相互作用的可见误差是会消失的,也就是说,这种偏差是随着相互作用的两个区域各自作用区域出现的误差而出现的。

  在这些假设的基础上,Hi-C原始计数矩阵可以反复验证,在一个重复循环中,Hi-C图谱的每一组分都能通过两个互作区域的可见误差产物区分开来。同样,Imakaev等人也在人淋巴母细胞系实验中验证了这种方法,获得结果出现的误差与近期概率方法计算出来的限制性片段水平误差相关性很好,从而相互确认了这两种方法的作用。

  从这两篇论文中,我们可以看到染色质互作图谱实验技术与分析方法上的极大进步,这些成果将有助于科学家们深入了解基因组的三维结构,极大地改变我们对于人类基因组全图的认识。

  原文摘要:

  Iterative correction of Hi-C data reveals hallmarks of chromosome organization

  Extracting biologically meaningful information from chromosomal interactions obtained with genome-wide chromosome conformation capture (3C) analyses requires the elimination of systematic biases. We present a computational pipeline that integrates a strategy to map sequencing reads with a data-driven method for iterative correction of biases, yielding genome-wide maps of relative contact probabilities. We validate this ICE (iterative correction and eigenvector decomposition) technique on published data obtained by the high-throughput 3C method Hi-C, and we demonstrate that eigenvector decomposition of the obtained maps provides insights into local chromatin states, global patterns of chromosomal interactions, and the conserved organization of human and mouse chromosomes.

推荐
关闭