分析测试百科网 > 行业资讯 > 焦点事件

PCAWG联盟6篇Nature、15篇Nature子刊揭示癌症的复杂性

2020.2.06

　　一项大规模的国际努力对来自38个人体组织的2600多个肿瘤基因组进行了多方面研究，从而对癌症的遗传基础产生了丰富的见解。

　　早在2001年对首个人类基因组进行测序后，肿瘤的全面基因组表征就成为癌症研究人员的一个主要目标。从那时起，测序技术和分析工具取得的进展使得这个研究领域蓬勃发展。在发表在最新一期Nature期刊的6篇论文中，全基因组泛癌分析（Pan-Cancer Analysis of Whole Genomes, PCAWG）联盟进行了迄今为止最全面、最雄心勃勃的癌症基因组荟萃分析。与以前的研究工作主要集中于癌症基因组的蛋白编码区域不同，PCAWG联盟分析了整个基因组。在这6篇Nature论文中，每篇论文都仔细研究了癌症遗传学的一个重要方面---总之，他们的发现对于理解癌症的完整遗传复杂性至关重要。

　　在讨论这些分析的影响之前，至关重要的是要强调支持PCAWG联盟努力的大量数据和复杂的组织框架。该项目涉及一个来自4大洲的744个附属机构的跨学科科学家小组，该小组必须克服主要的技术、法律和伦理挑战，才能在保护患者数据的同时进行分布式分析。研究人员分为16个工作组，每个工作组专注于癌症基因组学的不同方面---比如，评估突变的复发或推断肿瘤的发生。

　　总体来说，PCAWG联盟总共对38种肿瘤类型进行了综合分析。这些研究人员对2658个全癌基因组进行了测序，同时对来自同一癌症患者的相匹配的非癌细胞基因组进行测序。这些数据得到1188个转录组---肿瘤中RNA转录本的序列和丰度---的补充。

图片.png

图片来自Nature, 2020, doi:10.1038/d41586-020-00213-2。

　　这些研究工作涉及广泛的质量控制和协调的数据处理，以及对用于检测突变的计算流程的大规模系统性实验验证。使用了许多计算算法和流程，并进行了比较。这需要数百TB的数据，这些数据分布在多个数据中心中，并且很可能需要数百万个处理小时---所有这些处理都由云计算实现。值得注意的是，PCAWG联盟的努力为云计算如何使得国际合作成为可能并有助于推进数据密集型领域发展提供了一个很好的例子。

　　第一篇Nature论文概述了PCAWG数据集的广度和深度。PCAWG联盟报道平均而言，每个癌症基因组均携带4或5个驱动突变，这就为癌细胞提供了选择性优势。在研究的肿瘤中，仅5%没有发现驱动突变。相比之下，许多癌症表现出基因组灾难---复杂染色体重排（chromoplexy, 存在于17.8%的肿瘤）和染色体碎裂（chromothripsis , 存在于22.3％的肿瘤）---的特征，从而导致基因组发生重大的结构变化。

　　其他5篇Nature论文更详细地探讨了这个数据集的不同方面。比如，在第二篇Nature论文中，Rheinbay等人着手鉴定出非编码DNA中的遗传驱动因子。这是一项雄心勃勃的研究工作，这是因为要准确地检测非编码区中的突变比编码区中的突变要困难得多，更不用说评估非编码区中的突变。这些作者使用仔细的建模来排除伪影（artefacts），并系统地识别非编码驱动突变。

　　他们的结果使得以前报道的非编码驱动因子（比如长链非编码RNA NEAT1和MALAT1）受到质疑，但也揭示了新的非编码驱动因子。比如，这些作者报道了至关重要的肿瘤抑制基因TP53非编码区中发生的复发突变。他们还发现端粒酶基因TERT的非编码区中相对频繁发生的突变导致端粒酶的过度表达（这有助于肿瘤细胞不受控制地分裂），这与以前的一项针对晚期（转移性）肿瘤的泛癌研究中发现的较高端粒酶突变发生率（12％）相一致。尽管该研究不能排除存在其他非编码驱动因子，但它明确地表明这种类型的突变并不常见。

　　在第三篇和第四篇Nature论文中，Alexandrov等人和Li等人着重研究了称为标签（signature，也译为签名，指的是独特性的DNA序列或单核苷酸位点）的基因组畸变（genomic aberrations）。不同的过程，比如缺陷性的DNA修复机制，或者暴露于环境诱变剂，会产生特征性的DNA畸变模式。如果我们要完善已知的突变标签并发现新的突变标签，那么更大规模的基因组数据集至关重要。令人印象深刻的是，Alexandrov等人和Li等人鉴定出97个标签序列。他们对先前研究工作的扩展不仅包括常规的单核苷酸标签，而且还包括涉及多核苷酸变异（multi-nucleotide variant）、小片段DNA插入或缺失的标签。

　　值得注意的是，Li及其同事们是最早发现涉及结构变异（structural variant）---基因组的大部分发生重排---的可重现标签的人之一。由于结构变异的多样性和复杂性，识别结构变异的过程比识别突变标签的过程更为复杂。

　　通过一系列的突变分组（mutation-subgrouping）步骤，这些研究人员确定了16个结构变异标签，比如揭示了两个结构变异标签---缺失和相互倒位（reciprocal inversion）---之间存在推定的机理联系。他们还了解所有16个标签在癌症中的作用。某些DNA修复基因中的突变显示与特征性的癌症标签相关。比如，PCAWG联盟发现基因CDK12中的突变与重复DNA的串联片段相关，并且DNA修复酶MBD4的截短变异与涉及称为CpG位点的DNA序列的独特突变标签同时出现。总而言之，这些新的标签为理解癌症产生机制以及诱变暴露在这个过程中的作用奠定了基础。

　　1976年，科学家们首次提出了癌症通过进化过程产生的想法。此后，人们就根据随机突变和自然选择来描述癌症进化。具有赋予高适应性的突变的癌细胞迅速增殖，成为细胞群体中最突出的细胞克隆。这种现象称为克隆清除（clonal sweep），在癌症生长过程中反复出现。通过随时间推移对多个区域进行测序，可以最有效地研究癌症进化，但是也可以通过一次活检来重建癌症进化---这是Gerstung等人在第五篇Nature论文中采用的方法。

　　这些作者引入了“分子时间（molecular time）”的概念，以对克隆和亚克隆突变进行分类。他们认为，仅存在于一部分肿瘤细胞中的亚克隆突变一定是在癌症进化的晚期才出现的。他们将存在于所有肿瘤细胞中的克隆突变归类为早期克隆突变或晚期克隆突变，这取决于克隆突变是在克隆经历拷贝数增加（copy-number gain, 一个基因或染色体区域的拷贝数增加）之前或之后发生的。这些研究人员汇总了来自多种肿瘤的进化数据，这使得他们能够确定常见的突变轨迹，比如描述了结直肠癌中突变出现的典型顺序的APC-KRAS-TP53进展。

　　Gerstung等人发现，在给定癌症中最常见的驱动突变也往往最早出现。同样，如果在某种特定的癌症类型中拷贝数增加非常频繁地出现，那么它们往往会较早发生。比如，在透明细胞肾癌中，一部分染色体中的拷贝数增加很常见，倾向于在这种疾病产生的早期出现。相反，全基因组重复（whole-genome duplication）是这种癌症中相对较晚的事件。最后，这些研究人员发现至少40％的肿瘤中的突变标签会随时间变化。这些变化反映了环境暴露在疾病进展中的作用逐渐减弱，以及DNA修复缺陷的发生频率和严重性增加。总体而言，他们的研究结果表明，驱动突变可以在癌症确诊之前数年发生，这对癌症的早期发现和生物标志物开发具有重要意义。

　　在最后一篇Nature论文中，PCAWG转录组核心小组（PCAWG Transcriptome Core Group）及其同事们利用了具有匹配转录组数据的1188个PCAWG样本，将DNA和RNA的改变功能性地联系在一起。该小组发现数百个单核苷酸DNA突变与附近基因的表达之间存在关联。然而，更大的拷贝数变化是癌细胞中基因表达变化的主要驱动力。突变也与RNA转录本结构的变化有关，比如在非编码区（内含子）中形成新的蛋白编码区（外显子）。

　　这些作者还描述了桥接融合（bridged fusion）---由于第三个DNA片段的插入将两个基因融合在一起---的发生频率。最终，尽管在分析的1188个样本中有87个在DNA水平上没有发生驱动改变，但是该小组发现每个样本都具有RNA水平的改变。总之，这些见解说明了将RNA和DNA测序分析整合在一起在癌症研究中的强大作用。

　　这六篇Nature论文以及在Nature Genetics期刊上发表的5篇论文、在Nature Biotechnology期刊上发表的1篇论文、在Communications Biology期刊上发表的1篇论文、在Nature Communications期刊上发表的8篇论文（go.nature.com/3boajsm）代表了癌症和云基因组学（cloud genomics）的一个里程碑。

　　通过专注于推论，PCAWG联盟成功地扩展了十年来主要基于观察的癌症测序研究。值得注意的是，尽管与描述性研究相比，推理性分析对癌症的了解更深，但是它们的结果也具有更高的不确定性。

　　PCAWG数据集的广泛可用性和质量几乎可以肯定会激发一系列生物学见解和方法学发展。与其他功能性基因组数据集整合（比如，探查三维基因组结构）在一起无疑也将提供对遗传畸变的原因和后果的进一步理解。

　　当前研究的最大局限性是缺乏有关患者预后和治疗的临床数据。这样的数据将使得研究人员能够确定可预测临床结果的遗传变化。幸运的是，一个名为国际癌症基因组联盟-加速基因组肿瘤学研究（ICGC-ARGO）的项目正在进行中，该项目将为100000多名癌症患者构建这样的资源。

　　最终，PCAWG联盟召集了成千上万的科学家，共同努力实现它的目标。这些努力的长期影响将不仅限于今天发表的研究结果，而且还包括将来自这个全球研究人员联盟成员之间已经形成的合作以及已经进行的知识交流。

　　参考资料：

　　1.Peter J. Campbell et al. Pan-cancer analysis of whole genomes. Nature, 2020, doi:10.1038/s41586-020-1969-6.

　　2.Esther Rheinbay et al. Analyses of non-coding somatic drivers in 2,658 cancer whole genomes. Nature, 2020, doi:10.1038/s41586-020-1965-x.

　　3.Ludmil B. Alexandrov et al. The repertoire of mutational signatures in human cancer. Nature, 2020, doi:10.1038/s41586-020-1943-3.

　　4.ilong Li et al. Patterns of somatic structural variation in human cancer genomes. Nature, 2020, doi:10.1038/s41586-019-1913-9.

　　5.Moritz Gerstung et al. The evolutionary history of 2,658 cancers. Nature, 2020, doi:10.1038/s41586-019-1907-7.

　　6.Claudia Calabrese et al. Genomic basis for RNA alterations in cancer. Nature, 2020, doi:10.1038/s41586-020-1970-0.

　　7.Yuan Yuan et al. Comprehensive molecular characterization of mitochondrial genomes in human cancers. Nature Genetics, 2020, doi:10.1038/s41588-019-0557-x.

　　8.Kadir C. Akdemir et al. Disruption of chromatin folding domains by somatic genomic rearrangements in human cancer. Nature Genetics, 2020, doi:10.1038/s41588-019-0564-y.

　　9.Bernardo Rodriguez-Martin et al. Pan-cancer analysis of whole genomes identifies driver rearrangements promoted by LINE-1 retrotransposition. Nature Genetics, 2020, doi:10.1038/s41588-019-0562-0.

　　10.Marc Zapatka et al. The landscape of viral associations in human cancers. Nature Genetics, 2020, doi:10.1038/s41588-019-0558-9.

　　11.Isidro Cortés-Ciriano et al. Comprehensive analysis of chromothripsis in 2,658 human cancers using whole-genome sequencing. Nature Genetics, 2020, doi:10.1038/s41588-019-0576-7.

　　12.Sergei Yakneen et al. Butler enables rapid cloud-based analysis of thousands of human genomes. Nature Biotechnology, 2020, doi:10.1038/s41587-019-0360-3.

　　13.Joana Carlevaro-Fita et al. Cancer LncRNA Census reveals evidence for deep functional conservation of long noncoding RNAs in tumorigenesis. Communications Biology, 2020, doi:10.1038/s42003-019-0741-7.

　　14.Marta Paczkowska et al. Integrative pathway enrichment analysis of multivariate omics data. Nature Communications, 2020, doi:10.1038/s41467-019-13983-9.

　　15.Matthew A. Reyna et al. Pathway and network analysis of more than 2500 whole cancer genomes. Nature Communications, 2020, doi:10.1038/s41467-020-14367-0.

　　16.Wei Jiao et al. A deep learning system accurately classifies primary and metastatic cancers using passenger mutation patterns. Nature Communications, 2020, doi:10.1038/s41467-019-13825-8.

　　17.Yiqun Zhang et al. High-coverage whole-genome analysis of 1220 cancers reveals hundreds of genes deregulated by rearrangement-mediated cis-regulatory alterations. Nature Communications, 2020, doi:10.1038/s41467-019-13885-w.

　　18.Lina Sieverling et al. Genomic footprints of activated telomere maintenance mechanisms in cancer. Nature Communications, 2020, doi:10.1038/s41467-019-13824-9.

　　19.Shimin Shuai et al. Combined burden and functional impact tests for cancer driver discovery using DriverPower. Nature Communications, 2020, doi:10.1038/s41467-019-13929-1.

　　20.Marek Cmero et al. Inferring structural variant cancer cell fraction. Nature Communications, 2020, doi:10.1038/s41467-020-14351-8.

　　21.Vinayak Bhandari et al. Divergent mutational processes distinguish hypoxic and normoxic tumours. Nature Communications, 2020, doi:10.1038/s41467-019-14052-x.

　　22.EDITORIAL. The era of massive cancer sequencing projects has reached a turning point. Nature, 2020, doi:10.1038/d41586-020-00308-w.

　　23.Mark Phillips et al. Genomics: data sharing needs an international code of conduct. Nature, 2020, doi:10.1038/d41586-020-00082-9.

　　24.Marcin Cieslik et al. Global genomics project unravels cancer’s complexity at unprecedented scale. Nature, 2020, doi:10.1038/d41586-020-00213-2.

癌症 nature pcawg

生物谷

喜欢作者我要约稿

喜欢作者

打赏方式

PCAWG联盟6篇Nature、15篇Nature子刊揭示癌症的复杂性

周锦帆