关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

香港学者Nature综述:探讨大规模基因组研究

2014.5.08

  近年来经常有人说我们进入了大数据时代,确实,2005年整个人类(据不完全统计)创造了150EB的数据,而在2010年,就达到了1200EB,在生命科学研究领域,随着新一代基因组测序技术的发展,近十年来大规模基因组测序研究越来越多,由此也积累出了庞大的数据群。

  数据爆炸使科学的研究方法都落伍了,比如说要计算什刹海的鱼,原来的统计方式,是先测量每段水域内鱼的数量,然后根据样本估计,其实这种方法在现在来说已经不准确了。现在用一种极端的方式来说,就是抽干什刹海的水,然后一条一条数。统计学盛行不过百年,但是现在已经过时了,最好的统计方法就是穷举,这就是统计学的革命。

  近期来自香港大学李嘉诚医学院的两位学者发表了题为“Statistical power and significance testing in large-scale genetic studies” 的综述,针对基因组研究中常用方法:显著性检验进行了深入探讨,回顾了显著性检验的基础原则和应用方法,以及就最近的罕见突变基因研究为例进行介绍。

  显著性检验(Significance Testing)是为某个假说总结统计证据的一种客观方法,这种方法在基因研究中被广泛使用,如全基因组关联研究,还有最近的外显子组测序研究。

  但是无论是在全基因组研究,还是外显子组范围内的研究中,显著性检验都需要严格意义的阈值,以便进行多方检测,并且这种方法也只适用于已有充足统计意义的研究,而这依赖于表型的特征,以及假定的遗传变异,还有研究设计方案。

  这篇综述对此进行了深入探讨,回顾了显著性检验的基础原则和应用方法,以及就最近的罕见突变基因研究为例进行介绍。

  外显子组突变研究

  来自贝勒医学院等处的基因组学和遗传学专家利用之前建立的生物信息学技术,计算单个碱基对中超过一百万变化出现的时间,这些碱基对来自6,515位欧裔美国人和非裔美国人的外显子组,或称为编码蛋白基因组。

  近年来人类人口数量急剧增加,导致了大量罕见重要功能的变化,这对于理解和预测当前和未来人类疾病和进化的模式,具有重要的意义。

  研究人员发现从进化的角度上说,在最近的五千到一万年间,编码细胞蛋白的基因有将近四分之三发生了突变。

  其中最有趣的一点就是,欧洲人比非洲人出现了更多的有害突变,即潜在导致疾病的突变,出现了如此多的新突变,部分原因在于欧洲人的人口骤增,但是研究发现涉及孟德尔遗传性状的基因突变,以及那些会影响细胞正常运作,至关重要的基因突变好像更加早一些。(孟德尔遗传性状是指由单基因控制的表型,这种基因的突变会造成破坏性的影响)

  这项研究发现的编码蛋白的基因,也就是外显子出现的突变或变异的数量,与五千年前出现的完全不同,这表明“近期”发生的事件对人类基因组造成了极大的影响。并且研究人员还发现,过去五千年间,欧裔美国人中出现的86%的遗传突变或变异都是有害的。

  稀有基因突变研究

  一组研究人员对14,002个人类个体的202个药物靶点编码基因进行测序,以研究这些基因变化的范围。他们发现,稀有遗传变体的丰度为每17个碱基出现一个,且呈地域局限性。因此,即使以大数量样本进行调查,对稀有变体的编目记载仍很不完善。

  Matthew R. Nelson等人利用已观察到的基因变体模式估计这些变体在人群中的增长参数,并估算有害基因变体在一定频率级中所占的比例,以及每一个基因的突变率。

  最终,他们得出结论认为,由于快速的人口增长和较弱的纯化选择,人类群体目前具有大量的稀有基因变体。这其中相当一部分都是有害的,与已知疾病的风险存在相关性。

推荐
关闭