介绍国外几位生物信息学家(4)~~David Sankoff

上一篇 / 下一篇  2011-05-23 23:27:03/ 个人分类:生物信息学家

  David Sankoff, 现任加拿大University of Ottawa的数学基因组学研究主席。他在McGill University大学学习,并与Donald Dawson一起研究概率理论获得博士学位,撰写了关于历史语言学的概率模型的博士论文。他1969年加入在University of Montred的数学研究中心(Centre de recherches mathematiques, CRM),在1984~2002年,他同时兼任数学和统计学系的教授。他是生物信息的创始之父之一,奠基性的贡献可以追溯到七十年代早期。

  Sankoff受过数学和物理学的训练;然而他的1960年的大学暑假却是在University of Toronto的微生物实验室度过的,来帮助病毒领域的实验,同时每个晚上和周末都在图书馆阅读生物学杂志。那是非常令人振奋的时期,不需要太多的背景和知识就可以赶上分子生物学文献的进展,Watson-Crick的模型只有十年的时间,解码遗传密码子仍没有完成,mRNA刚刚被发现。有了这些经验,在几年以后,Scankoff没费多大力气就联系到了一个对应用计算机来解决分子生物学问题有远见卓识的生物化学家Robert, J., Cedergren。

  1971年,Cedergren让Sankoff想办法来比对RNA序列。Sankoff对算法设计几乎一无所知,对离散动态规划根本不知道,作为一个大学生,他有效地采用了后一种方法解决了买方卖方匹配的经济学问题,这个方法也同样适用于序列联配。Bab和David开始被这个问题所吸引,对联配和其它问题进行了统计学的检验,幸运的是他们发现Needleman和Wunsch已经为生物序列比较发表了一个动态规划的技巧。

  在Sankoff和Cedergren的工作中,一个新的问题又很早的出现了:多序列联配以及它的分子进化相关问题。Sankoff在他以前在语言家族的研究中已经熟悉了系统发生学问题,并很早就参加了数值分类学的会议(这是Steve Farris领导下在简约促进分析的分支主义者(parsimony-promoting cladist)和更多具有统计学背景的系统学家面前的会议)。把序列比对和系统发生学联系到一起,他导出了一个基于树的动态规划算法。虽然系统发生学问题是在Sankoff的研究项目中突然发生的问题,但对这个问题的研究一直继续了之后的几十年。

  Sankoff和Cedergren也研究了RNA折叠的问题,用几步动态规划算法,可以建立能量优化的RNA结构。它们不符合找出由Daniel Kleitman小组找到的环结构(后来经过更一般化的整合,得到的更通用的算法是由Michael Zuker给出的)。但是在对特别是多环的问题和折叠与联配同时进行的问题,他们的方法甚至到八十年代还能给出可观的贡献。Sankoff说:

  “我和Cedergen的合作也从此走入了共同的死胡同。应用多维缩放的方法到核糖体结构,没有得到非常好的结果。试图通过tRNA序列的系统发生学的分析追溯遗传密码的起源的努力甚至没有效果。尝试对蛋白质共有序列折叠的动态规划彻底地失败了。”

  七十年代早期和中期无疑是Sankoff具有高产出的时期:他同时在自然语言语法变化的统计分析领域,在选举过程的博弈理论中,在考古学、地理学和物理学中各种各样的应用数学项目中进行了工作。Sankoff认识了Peter Seller,使他对序列比对产生了兴趣,Seller后来做出了用转换最长公用子序列(longest common subsequence, LCS)的组成来编辑距离版本的工作。Sankoff与著名的数学家Vador Chvatal在估计两条随机序列的LCS的期望长度上做了工作,他们导出了它的上限和下限。之后几代的概率学家都试图为缩小这个限制区间进行了贡献。Sankoff说:

  “进化生物学家Walter Fitch和Steve Farris在休假期间在CRM和我进行研究。同时,计算科学家Bill Day非常慷慨地在一系列确认各种各样的系统发生学问题的难度,特别是重要的简约类问题的文章中加上了我的名字。”

  在1987年,Sankoff成为新成立的(Canadian Institute for Advanced Research, CIAR)的进化生物学计划的一员。在CIAR计划的第一次会议上,他受Monique的邀请做了关于两种藻类叶绿体基因组比较的报告。这意味着Sankoff开始研究比较基因组学和研究基因组重排追溯的问题,这将成为他以后主要研究的问题。开始时,他采用概率论的方式进行研究,在一两年之中,他试图来发展算法和程序来处理距离的倒数。在面向16个线粒体基因组的距离倒数的系统发生学分析中,证明了强的系统发生学信号在这个在几千万年时间尺度上的微小的基因组的顺序上是非常保守的。Sankoff说:

  “在CTAR计划的学者和专家的网络包括了Bob Cedergren, Ford Doolittle, Franz Lang, Mike Gray, Brian Golding, Mike Zuker, Claude Lemieux和其他广布于加拿大的人,主要的国际建议者(比如Russ Doolittle,Micheal Smith和其它的人)和有交往者(Mike Waterman, Joe Felsenstein, Mike Sted 和其它人)。CTAR计划成为我事实上的“家单位”(home deparment), 一个智力支持上,知识上,有多重训练的经验及最新想法的智囊团。

  我的比较基因组研究在九十年代到了两个主要的进展。一个是在一系列出色的学生和博士后支持下合作完成的,他们是Guillaume,Leduc,Vincent Ferretti, John Kececioglu,Mathieu Blanchette, Nadia El-Mabrouk和David Bryant;另一个是我遇到了Joe Nadeau,我已经知道了他和Talar的有创意的文章,其中估计了保守连接片段的个数。我发现我们的兴趣非常一致,而我们的背景又是互补的。”

  当Nadeau出现在到Montreal的McGill的人类遗传学作短期访问时,与Sankoff的相处没有超过一个小时,他与Sankoff就开始了重要的合作。他们重组了Nadeau-Talor的方法到基因相关的数据中,把它从物理学和遗传学的距离的计量方法中解放了出来,导致简化的模型使他们能够彻底地通过Nedeau-Taylor模型的数学特性来进行探索,使之实验结果与它们脱离联系。

  算法和比较基因组统计特性的综合作用成为Sankoff用来理解进化的基础。基于更坚实的假说和程式化但不可改变的数学的基础,该算法具有进一步推断的能力。概率更具有描述性,但对历史进程具有更少的明确的启发性,而基于统计学的模型更容易推导出它们假设的减弱或加强,以及确定结果的鲁棒性。Sankoff的观点使这种方法脱颖而出,使得整个基因组比对这个领域成为现在和不久以后的将来成为最令人感兴趣的一个课题。

  “我研究问题的方法不是很有计划性,不是我在一般方向上如何做没有一个计划,而是我没有理所当然的一些工具要用,我只是采用直觉来寻找哪些方法或模型的方式,寻找哪些数据库和显示是有帮助的。如果我幸运,我可以从一些小的显现着手到另一个出现,每次找到一些细节,直到一些更清晰的故事的出现。是否这些研究涉及随机过程、组合优化、或者微分方程是第二位的,这是问题的生物性来指导它的数学组成。我很少有动机去研究那些已经研究了很久的问题。在我开始注意到联配问题时,它不是生物学家们和计算机学家们热门关注的事物,在十五年以前基因组重组也不是。令我非常高兴,虽然有时候也困惑的是:现在计算生物学家和生物信息学家的名符其实的大潮泛滥在这个领域,而在三十,甚至二十年前,只有非常少的单独研究者。”


TAG:

 

评分:0

我来说两句

显示全部

:loveliness::handshake:victory::funk::time::kiss::call::hug::lol:'(:Q:L;P:$:P:o:@:D:(:)

Open Toolbar