上海应物所生物医学图像数据库检索研究取得重要进展

2011-9-21 22:32 来源: 中国科学院
1008 收藏到BLOG

  近日,中国科学院上海应用物理研究所李勇平研究组在医学图像检索方面的文章Bag-of-Features Based Medical Image Retrieval via Multiple Assignment and Visual Words Weighting (doi: 10.1109/TMI.2011.2161673)被医学成像领域期刊IEEE Transactions on Medical Imaging接收。不久之前,该研究小组在模式识别领域杂志Pattern Recognition上发表了在蛋白质数据库检索方面的文章Learning context-sensitive similarity by shortest path propagation (doi: 10.1016/j.patcog.2011.02.007)。

  基于上海光源大科学装置的发展和使用,生命科学领域将产生大量的蛋白质和医学图像数据。在这种情况下,如何对蛋白质和医学图像等数据库进行精确高效的检索,对推进相关领域研究的发展有着十分重要的意义。李勇平研究小组自2009年SSRF对外开放运行以来,将机器学习应用研究重点从生物特征识别(Biometrics)领域转向了SSRF数据理解方面,在医学图像的Bag-of-Features表达和蛋白质检索中的相似度学习这两个问题上,做出了创新性的研究成果:

  1.针对医学图像的Bag-of-Features表达中码本的量化和加权问题,突破传统的“0,1”量化的概念,创新性地提出了“多重软量化”的概念,并且对量化权重进行数学建模,得到了可以通过二次规划(QP)数学工具解的量化权重方法;另外,对于码本的加权问题,首次提出了利用每个码字构建弱分类器之后通过Ada-Boost算法来求取其权重的策略。

  2.针对蛋白质数据库检索中两个蛋白质对比的相似度计算问题,突破传统的“两个蛋白质相似度只与这两个蛋白质有关”的思路,创新性地提出了“两个蛋白质相似度也与数据库中其他蛋白质相关”的环境敏感相似度假设,并进一步探讨了“与哪些蛋白质相关”的问题,对数据集进行了图模型的表达,提出了利用两个蛋白质之间的最短路径对相似度进行扩散的计算方法。

  这两项工作主要由博士研究生王靖琰在李勇平研究员的指导下完成。该研究得到了973项目“基于上海光源针对重大疾病医学影像的若干关键问题研究”(2010CB834302)和“基于上海同步辐射光源的结构生物学技术和方法研究”(2011CB911100)的大力支持。