关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

数百万幅图像迫使科学家寻找储存数据新方法

2016.6.13

  对于生物和物理学界的研究人员来说,“图像过剩”的挑战正日益成为一大负担。

143795_201606130919551.jpg

  美国宇航局太阳动力学天文台每天会收集1.5兆兆字节关于太阳活动的数据。

  随着果蝇幼虫在视频中向前蠕动,呈裂纹状的神经活动快速传导至其半毫米长的身体。当它向后蠕动时,“波浪”朝另一个方向起伏。这段在YouTube上被观看了10万多次的11秒长视频剪辑,以几乎单个神经元的分辨率展现了该幼虫的中枢神经系统。创建这段视频的试验则产生了几百万张图像和几万亿字节的数据。

  美国霍华德·休斯医学研究所珍利亚农场研究园区发育生物学家Philipp Keller领导的团队制作了该视频。对于Keller来说,这类产生大量图像的试验带来了巨大挑战。“过去5年里,我们光在用于数据处理的计算方法上便花费了约40%的时间。”问题并不在于储存图像——数据存储的花费并不高,而在于组织和处理图像,以便其他科学家能理解它们并且获得想要的东西。

  对于生物和物理学界的研究人员来说,“图像过剩”的挑战正日益成为一大负担。Keller和两个其他领域——天文学和结构生物学——的科学家向《自然》杂志解释了他们正如何解决这个问题。

  为太阳成像

  在新墨西哥州拉斯克鲁塞斯市上空地球同步轨道的某个地方,太阳动力学天文台(SDO)追踪着天空中的一个八字结。该卫星对太阳进行着持续观察,并利用3台仪器记录它的每一次“打嗝”。这些仪器通过10个滤镜对太阳进行成像,记录其紫外线输出量并追踪它的地震活动。随后,这些数据被传送到下方的地面卫星接收站。美国宇航局(NASA)的承包商——ADNET系统的太阳科学家Jack Ireland介绍说,SDO每天产生“约1.5万亿字节的图像数据”。根据NASA的说法,这一数据量相当于音乐软件iTunes上约50万首歌曲。

  Ireland表示,为帮助研究人员驾驭这些图像,ADNET团队和欧空局一起开发了用于浏览SDO图像的网站Helioviewer以及可下载的应用程序。利用这些工具的研究人员和天文学爱好者看到的并非初始数据,而是其较低分辨率的图像。

  每张原始SDO科学图像是4096像素×4096像素的正方形,大小约有12兆。它们每隔12秒被拍摄下来,迄今已收集了数千万幅图像。

  用户可跳转到自SDO于2010年启动以来的任何特定时间,选择滤色镜并获取到数据。随后,他们可放大图像,浏览、裁切,并将其串在一起形成影片,从而使太阳动力学可视化。Ireland介绍说,用户每天平均创建约1000个影片,而且自2011年起,至少有7万个影片被上传到YouTube。

  一旦他们选择了某张图像或某个被裁剪的区域,比如围绕特定太阳耀斑的区域,用户仍能下载初始的高分辨率图像。如果需要,他们还能下载较小的1兆图像的完整档案。

  更快速的文件格式

  对于Keller在珍利亚农场研究园区的发育生物学团队来说,将他们的数据发布到网上供外部人员获取并不存在此类问题。如果其他人想要数据,该团队可利用专门的文件传输工具,或者简单地通过运送硬盘,实现图像共享。不过,该团队首先必须管理并分类以每秒10亿字节从实验室显微镜下流出的图像。“这是一项巨大的挑战。”Keller说。

  Keller实验室利用显微镜向诸如果蝇、斑马鱼、小鼠等小型生物体的大脑和胚胎内发射光。这些生物体经过了基因改造,因此它们的细胞能发出荧光作为回应,从而使该团队得以数小时对3D下的每个细胞进行成像和追踪。为储存这些数据,实验室在可提供约1拍字节存储量的文件服务器上花费了约14万美元。

  这些服务器上数百万张图像的高度结构化组织,让团队成员保持着理智。每台显微镜都在自己的目录内储存着相应的数据;文件按照树状结构排列,而该结构描述着一项既定试验完成的数据、哪种模式生物被利用及其发育阶段、用于可视化细胞的荧光标记蛋白等信息。Keller介绍说,实验室构建的数据处理管道便按照上述结构行事。

  然而,目录并未包括大多数显微镜学家所熟悉的JPEG图像文件。JPEG格式会压缩图像文件的大小,使其更容易处理和传送,但在读取并将这些数据写入磁盘方面要相对缓慢,并且对3D数据来说效率太低。Keller的显微镜在收集图像方面是如此的迅速,以至于他需要一种能像JPEG那样进行高效压缩但被读写时要快很多的文件格式。由于该实验室通常研究的是单独的数据子集,因此Keller需要一种简单的方法提取特定空间位置或时间点。

  Keller及其团队开发了凯勒实验室数据块(KLB)文件格式。它将图像数据切割成可被多个计算机处理器同时压缩的组块。这使文件读取速度快了3倍,因此KLB在压缩文件大小方面表现得和JPEG格式一样好。

  共享原始数据

  拍摄照片以判定分子结构的生物学家还产生了海量的图像数据。一项日趋流行因此也产生了更多数据的技术是冷冻电镜技术(cryoEM)。

  CryoEM用户向快速冻结的蛋白质溶液发射电子束,收集上千幅图像,并将它们结合起来以接近原子水平的分辨率重建蛋白的3D模型。大多数这样的重建小于10千兆字节,而研究人员可将它们存放在电子显微镜数据银行(EMDB)中。不过,如此存放用于创建它们的原始数据却行不通,因为后者比得到的模型要大两个数量级左右。在英国剑桥附近的欧洲生物信息研究所(EBI)领导EMDB欧洲蛋白质数据库(PDBe)项目的Ardan Patwardhan表示,成立EMDB并不是为了处理这些数据。再现性因此遭殃:在无法获取到原始数据的情况下,研究人员既不能验证其他试验的有效性,也无法开发新的分析工具。

  2014年10月,PDBe启动一项试点方案:同样由Patwardhan主导、被称为冷冻电镜试验性图像档案(EMPIAR)的原始cryoEM数据资料库。目前,EMPIAR包括49个条目,其中每个条目的大小平均有700千兆字节,最大的超过12太字节,同时整个系列约有34太字节。总体上,用户每个月下载约15太字节。

  下载如此大量的数据带来了自身的问题:用于在电脑间传输文件的标准协议FTP不得不应对大规模数据集;连接损耗变得很常见,而下载速度会在长距离内大幅放慢。EBI为EMPIAR用户支付了获取两项高速文件传输服务——Aspera和Globus在线的费用。Patwardhan介绍说,两项服务均以“每24小时若干兆兆字节”的速度传输数据。同样利用这些服务传输大规模基因组学数据集的EBI为这项业务的另一面付出了代价。EBI提供Aspera服务的开支每年高达好几万美元。

  不过,EMPIAR原始数据已证实了它的价值。弗吉尼亚大学结构生物学家Edward Egelman与别人合作发表了一种被称为MAVS的蛋白结构。MAVS是一种聚合性的丝状结构蛋白,而最新发表的成果与此前的另一种模型存在分歧。Egelman通过下载并且重新处理原始数据集,证实此前的结构是错误的。EMPIAR的资助将在2017年用完,但Patwardhan表示,cryoEM研究人员告诉他,他们已将EMPIAR视为一种必需,并且想把“试验性”字眼从档案的名字中去掉。“他们觉得,这应当被视为生物学界的一份重要档案。听上去还不错。”Patwardhan说。

推荐
热点排行
一周推荐
关闭