第二代测序技术又称作深度测序技术,应用到RNA上统称作RNA-seq或RNA测序,它已成为基因表达和转录组分析的重要手段。第二代转录组测序数据中含有大量不编码蛋白质的ncRNA序列,因为它们像宇宙中的暗物质一样难以识别和有重要功能,也被称为“基因组暗物质”。由于数据量巨大,保守性差,又有噪音干扰,这些“暗物质”的识别成为表观遗传学和调控网络研究的瓶颈。piRNA是数量最大的一类ncRNA,主要是通过与转座子的序列互补来控制转座子的表达,进而调控生殖和发育。由于不同物种的piRNA之间同源性很差,至今国际上还没有有效的识别方法。

  中国科学院动物研究所康乐研究组的张屹等最近发表的题为A k-mer scheme to predict piRNA and characterize locust piRNA 的最新研究论文,解决了高精度预测生物体中数量最大的一类非编码RNA---piRNA的难题,论文发表在生物信息学权威期刊《生物信息学》(Bioinformatics,IF=4.926)上。