权威学者Nature子刊公布数据分析新方法

分析测试百科网 > 行业资讯 > 项目成果

权威学者Nature子刊公布数据分析新方法

2016.11.08

　　生物数据大爆炸带来了无限可能，我们能从浩瀚的数据库中寻找到帮助临床医师们做出更正确判断，进行个体化医疗的许多信息，但是从设想走到现实还有很长的路要做。

　　11月7日的Nature Genetics杂志公布了一项最新数据分析工具成果，来自哥伦比亚大学和普林斯顿大学的研究人员利用一种新的机器学习算法扫描大量的遗传数据集，从中推断个人祖先的遗传组成，识别疾病相关的遗传突变。

　　这种新技术就是 TeraStructure ，在针对一万人的模拟数据集中， TeraStructure 评估人群结构的精确性要比目前的运算方法更高，速度要快一倍。单独使用 TeraStructure能分析上百万的个体人群，这个数量级远超目前的软件方法，而且这一算法还能评估世界级别人口数量的特征。

　　“很高兴能将我们的最新数据分析工具用于遗传学实际问题，”文章作者，哥伦比亚大学统计学教授David Blei说。Blei是哥伦比亚大学统计学与计算科学教授，主题模型领域权威人物，他与吴恩达博士（百度首席科学家，全面负责百度研究院）师出同门。

　　随着基因测序成本的降低，目前全球大约已经进行了百万个个体的基因组测序，到2025年这一数字将会增长至20亿。然而要将这些数据应用到临床，识别基因组中的致病突变，研究人员还需知道这些数据代表了什么，其中之一就是了解个体祖先的遗传变异。

　　TeraStructure 基于2000年首次公布在Genetics 杂志上的一种 STRUCTURE 算法，这种算法会在整个数据集中循环，一个基因组再一个基因组，筛选上百万个突变。

　　而TeraStructure会更新模型，它能在一个位置上检验一个遗传突变，然后将其与整个数据集中同一位置的所有突变进行比对，得到一个群体结构的工作预测，“这无需在每个点上每次都更新模型。”

　　在STRUCTURE 基础上，Blei等人提出了一些新想法，他们分析了两个真实世界数据集：来自斯坦福大学Human Genome Diversity Project 的940个个体基因组，以及千人基因组项目中的1,718个基因组集合。从中他们发现TeraStructure 可以媲美于最近的ADMIXTURE 和 fastSTRUCTURE 运算方法。

　　但当他们在万人基因组数据集中运行TeraStructure 之后，发现这在预测人群结构方面要更加精确，而且速度要快2-3倍。同时研究人员还发现 TeraStructure 也能单独分析多达十万和百万的基因组。

　　这一成果一出来，不少科学家们纷纷表示这项成果令人激动，“我认为这将有助于未来解决具有挑战性的多种问题，”来自芝加哥大学的遗传学研究员Matthew Stephens说。

遗传突变数据分析

生物通

喜欢作者我要约稿

权威学者Nature子刊公布数据分析新方法

如何利用GraphPad Prism软件分析QPCR数据

分子遗传学词汇--移码突变

分子遗传学词汇--非同义突变

分子遗传学词汇--同义突变

分子遗传学词汇--渗漏突变

微生物突变的主要类型

DNA基因突变的过程和结果分析

激光粒度仪测粒度数据如何分析

奥密克戎出现更“人类化”的基因片段，可能导致免疫逃逸

如何利用GraphPad Prism软件分析QPCR数据

NGS体细胞突变检测两三事

揭示全基因组DNA甲基化、半甲基化与遗传突变的新方法

遗传病基因分析大杀器来袭

eLife：新方法来识别癌症发生过程中的突变标签

突变和选择

遗传病家系的高通量测序

徐国泰博士等揭示ER阳性乳腺癌耐药的表观遗传学机制

Nature 表观遗传学进展将遗传学、环境与疾病联系了起来！

研究人员发布全基因组单核苷酸变异数据库

植物生物学研究数据库

周锦帆

喜欢作者

打赏方式

权威学者Nature子刊公布数据分析新方法

周锦帆