关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

Science:外显子组测序让“生命密码”解读更容易

2014.3.14

        简单来说,外显子组就是遗传代码中蛋白质编码的组分,占整个基因组的1%-2%。测序仪每跑一次仅能读取一定数量的碱基,但通过测序外显子组,研究人员能更快地生成更多的碱基。与全基因组相比,它也可以用更低的成本做出更好的分辨率。

  位于荷兰内梅亨的拉德伯德大学医学中心转译基因组学教授 Joris Veltman 在研究和临床测序应用中采用美国生命技术公司的 SOLiD 测序仪。他估算,他的实验室每年能够测出几千个外显子组,但只能测出 50 个左右的全基因组。“通量是我们选择外显子组的主要原因。”他说。

  还有一个是可解释性。全基因组测序无疑会产生更多数据,包括外显子组不具备的非编码碱基、结构和单倍型相位信息。但人们不仅尚未弄清大多数核苷酸的作用,核苷酸改变后对功能产生的影响也是一个谜。然而,在蛋白编码基因中错义突变的涵义则更容易解读。“现在,外显子组是我们在基因组解读中所掌控的那部分。”麻省理工学院-哈佛大学布罗德研究所基因组平台主任 Stacey Gabriel 说。

  因此,研究者一直在争分夺秒地进行外显子组测序。2010 年初仅有少数关于外显子组测序的文章得到发表;如今,在 PubMed 中的记录已经超过1600条。

  Gabriel 说,布罗德研究所已经解码了“超过十万个左右的外显子组”(对比哈佛大学遗传学家 George Church 所估计的数字,迄今得到测序的人类全基因组只有约17000个)。 Gabriel 说她的仪器测序外显子组的数量是全基因组的4倍,具有每周测序约 2000 个外显子组的能力。这得益于超过 50 台 Illumina HiSeq 2000 和 2500 测序仪,这些仪器大部分在国家心脏、肺与血液研究所的外显子测序大项目课题中安装。在该基因发掘项目中,布罗德研究所和华盛顿大学共同测出7500个外显子组。

  据霍华德休斯医学研究会研究员 Richard Lifton 说,耶鲁大学的十台 HiSeq 测序仪仅在去年就解码出了 12000 个外显子组。作为该校遗传学系主任,他于 2009 年发表了第一批用于临床的外显子组测序文章,随后又发表了 15 篇外显子组文章。 Lifton 说,“我们目前在一个高产的状态,我们目前测序外显子组的总费用是 500 美元,包括仪器的分期偿还费用。”与之相比,他的实验室只做了“非常少的”全基因组。

  但从测序仪的角度来说则是半斤八两——外显子组和全基因组都是同样的解码方式。不同之处在于上游,也就是在测序之前的目标捕获和文库构建步骤。

  杂交策略

  外显子组测序简单来讲就是目标富集的特殊形式,即在解码序列之前将感兴趣的遗传片段取出的制备策略。研究者以此充分利用经费并达到效率的最大化:如果你不需要整个基因组,为什么要测它?同时,在减少每个样品所测的碱基后,研究者能够在更高的覆盖度下,一次性测出更多的样品。

  覆盖度是指一个给定碱基被测序仪读取的次数。但这样的数字是统计学给出的,并不是绝对的。30 倍的覆盖度意味着平均每个碱基读取了 30 次;有些碱基的读取更频繁,另一些则相反。对于很多应用来说这已经足够了。然而当需要读取非均质癌中的关键突变等罕见变异并用于临床决断时,则最好尽可能多地覆盖给定的核苷酸。

  一些研究者利用目标富集去选择少量或几百个基因进行测序。在外显子测序中,目标序列是人类基因组的整个外显子组分。通常来说,这大约是 30 兆碱基数的序列,用户会补充 5’和 3’端的非翻译区、小分子 RNA 、长非编码转录本和其他选取的特定区域,这将显著地扩大捕获原料的数量。例如, Illumina 公司推出的 Nextera 快速捕获外显子组试剂盒有两种类型:一个是捕获 214405 个外显子(总共 37 兆碱基)的基础试剂盒,另一个是加入非翻译区和小分子 RNA (达到62兆碱基)的“扩充版”试剂盒。

  一些最早的外显子组研究使用了基于阵列的杂交技术进行目标捕获,包括 Lifton 和华盛顿大学基因组科学副教授Jay Shendure 在2009年的报道,这一策略后得到安捷伦科技公司和罗氏 NimbleGen 公司的商业化。但是溶液杂交法(该方法使用了一组生物素标记的寡核苷酸,可通过链酶亲和素微球捕获出杂交后产物)目前已经取代了这一方法。

  事实上, NimbleGen 自此已经完全退出了微阵列的市场。安捷伦公司下一代测序产品市场主管 Yong Yi 说,虽然安捷伦仍在出售微阵列,但大部分是服务仍在于使用先前项目中同一富集工具的客户。 Shendure 也表示,“如今产生的外显子组绝大多数是通过溶液杂交法。”

  Shendure 是最早利用外显子组分析孟德尔疾病的研究者之一。经他的计算,自 2009 年使用该技术以来,“至少有 100 种新的疾病基因得到鉴定”。“这是爆炸性的显著变化。”他接着说,外显子组并不比全基因组神奇,它们只是提供了“一种成本可控的方式,在很多合理的问题中能够(从基因组中)得到最想要的。”

  在他们的外显子工作中, Shendure 和同事使用 NimbleGen 基于溶液的 SeqCap EZ 人类外显子组文库 v3.0 试剂盒。 Lifton 的实验室也在利用这一方式鉴定有关于高血压、先天性心脏病、孤独症、血栓症和其他病症的基因。

  Illumina 公司的 Nextera 快速捕获外显子组试剂盒(一种利用转座子和优化杂交步骤的快速方法,能够将试验流程从若干天简化缩短为仅一天半)同样也是基于溶液杂交。安捷伦公司的 SureSelect 方法也是如此,这是一种布罗德研究所研发出(并仍在使用)的工具,能够在溶液中利用 120 个单位长度的生物素标记 RNA 诱饵去捕获目标序列,其中 88200 个 RNA 诱饵是在 SureSelect 人类全外显子 V5+UTRs 的模块中。

  分子锁

  目标捕获也能通过标准的聚合酶链式反应(例如,使用 RainDance 科技公司基于液滴的技术)来实现。或者,用户可以尝试所谓分子反向探针(molecular inversion probes,MIPs)或者“锁式”探针。

  Church 解释说,锁式探针“实际上就是两个尾部相连的 PCR 引物。”通过一个寡核苷酸的连接,这些双引物能捕获目标序列的任意一端,形成一个侧翼有缺口的分子半环(就像一个打开的锁)。这个锁可以由 DNA 聚合酶或连接酶闭合,这样捕获的材料就能扩增和测序,未捕获的序列则被核酸外切酶破坏。

  这一方法比简单的聚合酶链式反应具有更多优势:消除了多重性的麻烦。“你不会遇到在多重聚合酶链式反应中的N层问题。” Church 解释道,“原则上每个引物都能与其他任何一个引物以及他们的延生产物进行相互作用。”

  因此,大量的探针模块能够在单个反应中得到整合。2007 年, Church 和当时的博士后 Shendure 多路复用了 55000 个分子反向探针,能够捕获大约 10000 个外显子。到了 2009 年, Shendure 对库进行改良,目标为 50000 个外显子。

  如今, Shendure 则更倾向于使用 SeqCap EZ。但他也在使用分子反向探针。 2012 年 12 月,他和同事 Evan Eichler 使用分子反向探针从 2446 个患者样本中捕获了 44 个与自闭症谱系障碍潜在相关的基因。波士顿一家新公司 Pathogenica(由 Church 共同创立)也在细菌菌株归类和病毒药物耐受分析中使用分子反向探针。

  “当你想要在一大群人中对适度数量的基因进行测序时,锁式方法是个绝佳的选择。” Shendure 说。

  安捷伦公司在其 HaloPlex 外显子组试剂盒中对相关策略进行了商业化。在 HaloPlex 中,在任意端捕获序列的长生物素标记寡聚物通过杂交捕获目标基因组片段,通过产生能被聚合酶链式反应扩增的环,一步就完成测序文库的构建。“这是两个世界的结合。” Yi 说,“它结合了杂交的优势与聚合酶链式反应的简易性。”

  临床中的外显子组

  密尔沃基《哨兵日报》在 2011 年普利策奖特辑中完美地阐释了外显子组测序。报道中,一个小男孩患有严重的炎症性肠病,随后威斯康辛医学院的一群研究者开始诊断并治疗这个令人费解的特殊案例。这恰好是外显子测序首次在临床使用,研究人员在X连锁凋亡抑制(X-linked inhibitor of apoptosis)基因中鉴定了一个单点突变。这一信息预示着一种治疗策略的可能性——脐带血移植。从那之后,该学院将这一方法应用到其他 25 个案例中,其中 27﹪得到了“明确的诊断”。

  威斯康辛的研究者将 X 连锁凋亡抑制病人的外显子读到了 34 倍。 Veltman 说他希望将他的临床外显子组测到 1000 倍覆盖,但是成本和通量将他限制在60倍左右的覆盖度,然而布罗德的 Gabriel 在癌症基因组地图(Cancer Genome Atlas,TCGA)计划中收集的外显子组达到 120 倍的覆盖度。这比典型的全基因组深度更高( Gabriel 说,布罗德研究所测到 50 倍),但在某些应用中,尤其是牵扯到病人时,即便做到 120 倍覆盖也是不够的。

  Gabriel 举例,众所周知胰腺癌样品难以获得高纯度,但它却需要 300 到 400 倍的覆盖度。对于其他应用,如在患者样本中检测特殊的致死突变,医生“至少需要 500 倍的覆盖。” Gabriel 说。

  即使在外显子组中,相对较少的基因突变实际上是可行的。但结合这一事实和覆盖的深度,有些临床研究人员开始思考缩小比例的方法。

  “实际情况是对于每个临床外显子组,在目标基因筛选的设置中都能测出很多很多的(样品)。”英国韦尔科姆基金会桑格研究所癌症基因组计划课题组长 Ultan McDermott 说,“要界定支持生物学结果的突变特征,如药物反应和成活率,就需要做出比之前国际上(下一代测序)更多的测序,这几乎是必然的。”

  因此, McDermott 倡导使用大规模的外显子测序计划,如国际癌症基因组共同体,鉴定有趣的突变,并鉴定 400 到 500 个基因的小规模目标基因测序以对病人进行实际的检测。的确, McDermott 表示这一方法已在一项欧洲启动的 SPECTAcolor 试验性研究中开始实行,所有考虑进行临床试验的结肠直肠癌症患者将有 400 个左右的基因在桑格研究所得到测序。“这一信息会立刻将病人分到任意一个临床试验中,在那里你需要了解某个具体的突变,并作为切入点。”

  当然,另一方面在于目标明确的研究所固有的偏好性。“显然,如果你还没有明确目标的话,是什么都找不到的。” McDermott 说。

  Veltman 的研究就是一个经典案例,他研究的是严重的智力缺陷。大约有 200 个基因与这一症状相关,他说,但是“很明显,我们只掌握了其中的 10%”。因此,使用目标明确的方法只能寻找已知的遗传基因,就有可能失去感兴趣的东西。

  在 2010 年一项研究中, Veltman 的团队对 10 个“三人组”(一个患病小孩及其未患病的父母)进行了 42 倍覆盖度的测序,最终聚焦于 10 个“新生”突变(在父母体内未出现损伤)。其中三个与智力缺陷相关联,还有三个没有相关性。对剩下四个的功能分析(例如,观察行为和在模式生物中的相互作用同伴)表明,它们也可能在智力缺陷中起到一定作用。 2012 年的一项后续研究将同样的策略用于 100 个患者,鉴定出了 10 个已知与智力缺陷关联的基因和 19 个潜在基因的新生突变,并且证实了三个新遗传基因(其中一个来自于 2010 年研究中的四个基因)。

  Veltman 说,在这两项研究中新生突变的患病率全然不顾传统观点中严重智力缺陷的偶发性,传统观点通常将病症归因于常染色体隐性遗传。同时,遗传学家需要从根本上重新评定他们对罕见疾病的理解。“事实证明,这些新生突变是造成智力缺陷的一项普遍原因。” Veltman 说。

  然而,如果使用简单的基因模块其中很多基因就可能会被错过,因为它们不属于当时已知的严重智力缺陷相关的基因。

  当然,还有更多的基因可以经过全基因组分析得到,(像其他人一样) Veltman 也在追踪这条线索。大多数研究人员同意,一旦全基因组的测序、分析的成本和容易程度可以赶上外显子组,外显子组测序的吸引力将会消退。

  但是如果没有其他替代物的话,这种魅力是不会消失的,大量患者群体研究很可能会需要外显子组测序。 Shendure 说,“你应该理性地做研究,尽量将你感兴趣的问题理顺。有时是基因组的问题,有时又会是外显子组,而有时这个问题又会更有针对性。”

推荐
热点排行
一周推荐
关闭