关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

不同的胞外蛋白酶活性造成肿瘤特异的血清多肽组表...-3

2021.4.27

特征选择发现68肽离子特征可区别3个癌症组人群与正常组

  对本技术的预期临床应用前景进行分析后,我们认为难以将取自不同时间及不同地点的人群标本的651个特征峰进行关联分析。因此,我们采用判别分析进行了特征选择,以选出差别最大的峰。分别将3组癌症标本与对照组的196个峰进行Mann-Whitney U检验分析,其中至少一类癌症的多重比较校正P值小于1 × 10–5,结果见图2。将每个样品群中所有肽峰的离子强度中位值设为阈值时,肽段数目减少至68个(见图2A和补充表2),此门槛的设置足以将质谱图中基于MALDI MS/MS串联MS测序的大峰检出,又可排除邻近峰或“峰肩”的干扰。当此标准在至少1个癌症组或对照组可满足时,对应的m/z峰入选(参见补充表2)。采用多级Kruskal- Wallis test检验(校正值 P < 1 × 10–5),阈值设置同上,重复进行特征选择,分别有214和67个峰入选。大多数入选的峰为分子量小于2000Da的肽段;绝大部分4000Da以上的分子被排除在外(见图2A和补充表2)。随后将所有样本的质谱图用颜色进行编码和涂覆,目测对68个肽峰进行正确的分类和分度,并区分癌症组和正常组的所有差异(如图3所示)。结果发现,1个(或多个)癌症组的47个m/z峰的离子强度偏高,23个m/z峰的离子强度偏低(图2B),而有趣的是,2个峰在1种癌症中偏高但在别种癌症中偏低。68个峰中,14个(或升高或降低,1个是前列腺癌特异性的,13个是癌症共有的)可能包含前列腺癌的生物分子信号,14个(11个是癌症共有的)可能包含乳腺癌信号,58个(43为膀胱癌特有的)可能包含有膀胱癌信号(见图2B、C)。图2C为上述结果的热图(heat maps)形式,表明资料减少90%并未对临床分组产生不利影响,同时还表明癌症特异性肽特征似乎不但能够反映不具有特异性的炎症如关节炎和感染,还能够反映癌症,并且其特异性足以帮助我们区分正常与癌症患者甚至不同类型的癌症。

  图4. 采用MALDI-TOF/TOF MS/MS技术鉴定血清补体C4a的一个片段肽段2305.20。1例乳腺癌患者的血清样本经多肽提取和MS分析后,采用MS/MS技术分析选定离子(见补充方法)。图中所示片段离子谱取自NR数据库中人片段的Mascot MS/MS离子研究(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi db=Protein)且找到一个序列GLEEELQFSLGSKINVKVGGNS ([MH]+ = 2305.19;= 4 ppm),Mascot打分为38。b 和 y片段离子系列与限制性序列同时标出(上方箭头)。请注意,y离子产生于C末端,因此序列应向后读(见箭头方向)。

  图5. 晚期前列腺癌、乳腺癌和膀胱癌的血清肽模式。经MALDI-TOF/TOF MS/MS技术选定的肽段位于交叠序列簇,包括最初的68个单同位素m/z值中的46个(图2及补充表2)。另外23个肽经推测后采用靶MS/MS分析,与已知的序列簇匹配。总体上,61个肽段对于至少一种癌症具有明显的标记物可能性(校正P < 0.0002; 图 6),标成蓝色26个(前列腺癌),绿色50个(膀胱癌)或红色25个(乳腺癌)。与对照组相比,这些肽段有的升高(空心圈),有的降低(实心圈)。所有癌症组和对照组中,C3f (m/z = 2021.05) 和纤维蛋白素原a簇的1个成员 (m/z = 2553.01) 离子信号接近(见图3: 2021和图 6) ,因此可作为有效的内标(黄色)。6个肽段(粉色)为随机出现。括号中的残基在本实验中未观察到,但或为全长的建立者多肽,或为胰蛋白酶样切割位点处(Arg/Lys–Xaa)。

  图6. 晚期前列腺癌、乳腺癌和膀胱癌的血清肽模式。本图中包含图5中所列的69个肽段和已知序列的肽段(以m/z值列出)的MS离子强度和信号,并给出3个不同的Mann-Whitney U检验(柱6–8)和1个多元Kruskal-Wallis检验(柱9) 的显著性水平。实际信号(蓝色、绿色和红色)由至少对一种癌症具有明确标记能力的肽离子(校正P值< 0.0002)。

  校正P值为最主要的标准,最终符合此标准的肽离子分别为前列腺26个,膀胱癌50个,乳腺癌25个(与图5所示相同)。第二个柱列出的是对照组样本中每个m/z峰的离子强度值的中位数。峰强度比值(柱3–5)为与对照组强度的比值。比值为1的和更多信号,在当中位信号在某一种癌症中较高(r ≥ 1.4)时底纹设为深灰色,在低于对照时(r ≤ 0.75)设为浅灰色。Norm.:标准化的数据。

  图7. 与相应对照组相比,选定序列簇的离子强度值的中位数。3组中每个肽段的离子强度值的中位数标为与对照组的比值(r = 患者/对照)。比值绘在对数表中,范围0.1-10。左侧短线(r < 1),右侧短线(r > 1)分别表示癌症组的离子强度值低于或高于对照组。患者和对照组间无明显差异的多肽接近或与中央线重叠。

血清多肽组由种类不多但序列各异的几种序列簇组成

  68种入选的多肽中,46种可为MALDI-TOF/TOF方法(图4)、MALDI-Q/TOF MS/MS分析和数据库搜索检出(图5)。请注意,图5中所列出的m/z值为单同位素峰,故小于补充表1中所给出的相应的平均同位素的值。有趣的是,所有的(而非仅一部分)肽段序列均集中于各组的C端或N端重叠区,并在相应的末端有梯状平截,事实上,有些匹配分数甚至低于门槛值(参见补充方法)的序列,仍然被明确归为前体离子质量或入选为某一特殊档的离子质量片段(b或y),这是由于考虑到有限的CID模式可能与已建立的优势肽键断裂规则(34)不完全相符而定。此外,根据靶向MS/MS分析推测,另有23个多肽也可与某一特定序列匹配,其中15个的判别式分析校正P值至少对一种癌症具有显著性(< 0.0002),但离子强度明显较低(图6)。另两个(2553 和2021; 图5、6)在各组中,具有非常高但相似的MS离子强度,校正P值> 0.04,因而可用作准内标。另外6个多肽(图5、6)随机分布于癌症组合对照组,既无判别价值亦无内标价值。我们发现此处得到的大部分肽段可分为10或11个簇,这并无特别令人惊奇之处,因为最近的一项发现表明超过250种的血浆多肽来源于约20种血浆蛋白,而且也是广泛重叠的簇 [17]。应当注意的是,我们采用了一种无偏差的方法,从根据判别分析得到的多肽中先鉴别多肽标记物,再进行测序。这种方法一般称为离子作图,可采用各种MS平台获得[35,36]


推荐
热点排行
一周推荐
关闭