关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

以生物路径丛(Pathway Cluster)概念从事复杂疾病之基因分析1

2020.6.24

在后基因体时代,基因芯片 (microarray) 的出现让研究人员得以宏观的视野来探讨分子机转。在许多努力和资源投入到寻找新的疾病基因后,许多单基因疾病已成功地找出致病基因。然而,在复杂疾病 (例如高血压、糖尿病及一些常见癌症) 的研究上,收获却不如期待中的丰富。大多数复杂疾病的研究中都可找出分布在不同染色体上的致病基因,但其与疾病仅有小至中等的连结 (linkage) 或关联性 (association),且只有极少数的致病基因能在大量人口资料中,仍对疾病的连结或关联性具有显着性。目前从复杂疾病研究找到的致病基因,大多数在跨研究的报告中皆不具重现性。

复杂疾病具异质性、多源性
    以肥胖为例,在2004年Dr. Perusse1的研究发现:与人类肥胖相关的113个候选基因 (candidate gene) 在50个全基因扫描研究中,仅有18个基因在五个以上的研究提出一致的正面相关报导。另外,2005年Dr. Agarwal2 的评论提到 (如图一所示),25个高血压基因在不同的连结或关联性研究中,有9个基因在连结性研究中负面相关的报导多于正面相关的报导。而25个基因中,多数在关联性研究中正面相关和负面相关的报导不相上下。
    文献中将复杂疾病的致病基因在跨研究间缺乏重复性的现象,归纳出了几点解释。其中一个最广为接受的看法是这些多因子疾病的异质性 (heterogeneous)。另外,因在不同研究中,对各种表型 (phenotype,如血压、血糖) 定义上的不同和量测的不精确、对环境危险或保固因子 (如抽烟量,对污染物的摄取量) 的不同暴露程度以及不同人口之间基因背景的差异等因素,皆会遮蔽、加强或改变基因的作用并造成不同程度的疾病外显率 (penetrance)。
    简而言之,由于复杂疾病患者病因的多源性,稀释了任何一个基因变异的效果。所以,当我们将许多病患集中在一起,试图比较他们的基因和正常人有何不同时可能会发现不同的致病基因,甚至亦会发现跟疾病无关而是与病患其他特性相关的基因。

生物路径丛 (Pathway Cluster) 概念
    目前在复杂疾病的研究上,一般以使用类似的表型以减少样本间的异质性。然而,表型的同质化并不等于基因型的同质化。再者,一个疾病可能只是多种表型类似,但起源(基因)不同的病征组合。这个概念虽曾在文献中被提出过,但科学家所使用的简化表型方法并不尽理想。譬如在精神疾病领域,许多学者提出 ”endophenotype”,也就是「内在生物表型」这个概念。但他们所提出的操作方法,仅只是简单化(或减化)表型,譬如:以解剖学、影像学,或症兆定义上来减化,而没有着眼在减化「参与病征发展的生化路径」上。
    这个问题的主要瓶颈在于科学家对于疾病发展的机制还不够了解。因此,中研院潘文涵教授3 提出以下建议:在现今大量产生的基因表现数据上,运用「数据探勘 (data mining)」的方法,进行群组分析 (cluster analysis);将这些资料分成若干个群组内相关,但群组间不相关的多个群组,每一个群组可能代表一两个少数源头基因、和一些他的下游基因的表现状态。所得群组同构型高且接近病原的潜在基因,因此可视为「生物路径丛」的指针。
    我们首先用遗传流行病学的方法学来检验,这些群组是否具遗传性,再用此表现群组所得的分数(数量性状)或再进一步切割出来的 0/1 性质来进行基因定位,成功率必大为增加。 

高血压研究案例
    本公司特约研究员林可轩博士在中研院潘文涵教授实验室服务期间,即在高血压的研究上4运用特殊的人工神经网络 (artificial neural network) 模型,以华联的人类表达谱芯片 (HOA, Human   OneArray®) 所产生的大量基因数据来实现「生物路径丛」的概念。如图二所示,基因数据自神经网络左方的输入端进入模型。藉由不同的联机连接到中间的隐藏点 (hidden node)。这些中间的隐藏点及代表不同的「生物路径丛」。藉由联机上不同的权重,决定各生物路径丛包含的基因。最后,各生物路径丛对各所属基因加权 的结果决定是否送出影响输出端 (output node) 做决策的信号。最后,输出端对各生物路径丛送出信号加权的结果决定是否诱发高血压。林博士在文献中详述了决定各联机的权重及生物路径丛数量的方法。鉴于篇幅有限,本文中不予详述。图三显示该文中以类神经网络所构建之生物路径丛与血压的关系。图中左方显示高血压病人的数据,右方显示正常血压者的数据。图中由上而下分别为收缩压、舒张压、模型输出端信号、模型隐藏点信号以及构建的三个生物路径丛中实际基因的表现量。从模型隐藏点信号 (图三(g)及(h)) 可看出三个生物路径丛在高血压病人及正常血压者中呈现不同样板。红色样板代表该生物路径丛是处于表现 (expressed) 的状况,蓝色样板则代表该生物路径丛是处于不 (或低) 表现的状况。从图中可看出,生物路径丛一 (endophenotype 1) 是强保固的 (strongly protective),生物路径丛二是弱保固的 (weakly protective),生物路径丛三则是强危害的 (strongly risk)。这三个生物路径丛将高血压病人及正常血压者分成几个群组,不同群组中,含生物路径丛三者血压最高,含生物路径丛二者血压微降,含生物路径丛一者血压下降最多。即构建的三个生物路径丛对血压调控有不同的角色。生物路径丛亦可对高血压病人做适当的分群。



推荐
热点排行
一周推荐
关闭