研究探讨RNA-seq数据分析方法

上一篇 / 下一篇  2011-06-08 15:03:47

文章来源
  • 文章来源:转载

  高通量RNA测序(RNA-seq)有望描绘出转录组的整体图像,实现样本内所有基因及其亚型的完整注释和定量。随着测序价格的不断下降,以及个人化测序仪的上市,更多的实验室有机会尝试这种新技术。

  然而,测序之后的数据分析才是真正的挑战。在RNA-seq之后,还需要一些强大的计算工具,才能绘制出完整的转录组图谱。在这一期的《自然—方法学》(Nature Methods)上,来自MIT和哈佛Broad研究院的研究人员发表了一篇综述,介绍了转录组注释和定量的计算方法。

  首先,他们介绍了一些方法,将读数与参考转录组或基因组直接比对。之后,他们讨论了鉴定表达基因和亚型的方法。最后,他们还介绍了一些方法,来预计基因和亚型的丰度,以及分析样品间的差异表达。

  由于RNA-seq数据生成的不断改善,现有计算工具的发展有着很大差异。在某些领域,如读数定位,有多种算法存在,但在差异表达分析上,解决方案才刚刚出现。作者们强调了这些方法的核心原理和每种方法的关键差异,以及它们在RNA-seq 分析上的应用。他们还讨论了这些不同的方法如何影响结果以及数据的阐释。

  为了方便读者参考,他们还将现有的方法列成了一张表,注明了它们的原理和用途。另外,他们精选了一些有代表性的方法,应用在已经发表的RNA-seq数据组中。此数据组包含了5800万个末端配对的读数。

  数据比对是RNA-seq分析中的一项基本任务,然而也面临着一些挑战,比如数据量大,读数很短(36-125 bp),错误率可观,且许多读数跨越外显子-外显子交界。对于RNA-seq的比对方法,作者将其分成“unspliced read aligners”和“spliced aligners” 两类,并分别介绍。

  转录组重建也是个很困难的任务,因为基因表达差异很大,且读数可能来源于成熟的 mRNA,也可能来源于未完全剪接的前体RNA,这样就很难鉴定成熟的转录本。当然,读数短也为分析带来了困难。目前的转录组重建方法主要有两类,一类是基因组指导的,另一类是不依赖于基因组的。作者比较了这两类方法,并具体介绍了每一类下面的几种方法。

  至于转录组的图谱分析,DNA芯片一直是首选方法。在使用RNA-seq来估计基因表达时,需要将读数适当地标准化,才能提取出有意义的表达预测值。作者介绍了一些方法,来预计基因和亚型的丰度,以及分析样品间的差异表达。

  作者还提到,随着测序技术的成熟,如读长不断增加,现有的计算工具需要发展,也能满足新的需求,同时新工具也会不断出现,满足新的应用。


TAG:

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2016-12-04  
    123
45678910
11121314151617
18192021222324
25262728293031

数据统计

  • 访问量: 1910
  • 日志数: 18
  • 建立时间: 2010-09-19
  • 更新时间: 2012-06-03

RSS订阅

Open Toolbar