关注公众号

关注公众号

手机扫码查看

手机查看

IP4M,基于质谱代谢组学数据分析集成平台

麦特绘谱
2021.1.28


数据处理与分析是高通量代谢组学研究的核心环节之一。随着检测设备的快速发展和多组学技术的联合应用,数据规模和复杂程度呈指数上升。


有效地利用和挖掘数据中蕴含的海量生物学信息,需要不断改进现有数据分析方法,研发新方法,开发综合型自动化分析平台,为基于代谢组学的机制和转化研究提供生物信息学支持。

 

当前,众多免费或商业的,桌面或基于 web 的,独立或综合的工具已经被开发,但仍然缺少一款功能全面且使用方便的集成化数据分析平台来满足代谢组学的数据处理需求。


此外,随着各种组学的日益成熟,多组学整合研究越来越受关注,代谢组学与微生物组学的关联研究顺势成为代谢组学研究领域的另一大研究方向和热点。但多组学关联分析仍局限于传统的统计相关性分析,如Pearson相关和Spearman秩相关等,缺乏专门针对组学数据集的相关分析策略。

 

为更好的为代谢组学研究提供强有力的技术支持,绘云生物基于成熟先进的方法开发的针对色谱-质谱联用代谢组学数据的集成分析平台IP4M,为初学者和高级用户提供一站式的数据分析工具。该研究于2020年10月发表在BMC Bioinformatics杂志。目前,绘云生物IP4M已获得中国专利授权 

IP4M:Integrated platform for mass spectrometry-based metabolomics


IP4M是一个功能强大、模块化、可定制、同时易于使用的代谢组学数据处理和分析集成平台,免费版本适用于Windows、MacOS和Linux系统,有网页版和单机版本。IP4M软件目前提供62项功能,分为8个模块,涵盖了代谢组学数据挖掘的所有核心步骤。





12

   IP4M分析流程

   和主要模块

该软件的分析流程由六个步骤组成,具体如下:


首先,在进行数据处理前,需准备正确的输入数据文件。“气相色谱质谱数据预处理”模块和“流程化分析”中的“质谱数据预处理”功能要求输入数据的格式必须为开放的数据格式,如mzML、mzXML 和 netCDF。用户可以使用免费开放的proteowizard软件中的msconvert工具,将原始数据转换为通用的mzML或 mzXML 等其它数据格式。其它模块可以接受指定格式的逗号分割的文本文件(即.txt)。


步骤 1:原始数据预处理。包括对 GC-MS 和 LC-MS 的原始数据进行预处理,得到峰值列表文件。这两者的预处理流程相似,主要由峰提取、解卷积(GC-MS)、 峰对齐和缺失峰填补等核心步骤组成。其中峰提取又包括基线校正、降噪和平滑。


步骤 2:物质鉴定。基于公共数据库或实验室自建库,比对检测物质的质量信息和保留时间,或匹配其质谱信息,鉴定未知代谢物。


步骤 3:数据调理。包括异常值删除、补零、归一化、数据转换、基本统计量分析等。


步骤 4:统计分析。基于调理后的峰列表(peak table),对其进行基本的统计检验、差异分析和特征选择等。


步骤 5:通路分析。将筛选的差异代谢物或目标代谢物运用通路分析和通路富集分析,识别富集的代谢通路,衡量其受干扰的程度。


步骤 6:其它统计分析方法。包括对差异物或目标代谢物进行相关分析、距离分析、聚类分析,或构建回归模型,计算模型的灵敏度和特异性等。


IP4M 主要模块和分析流程




12

   IP4M功能模块

   的构建和方法

1.LC-MS和GC-MS数据预处理

该模块的主要功能是将 LC-MS 原始数据转换成峰列表数据。具体包括峰识别、峰分组、保留时间校正、峰补齐和峰注释等预处理步骤。IP4M 采用 metaMSR包中的 runLC()函数来完成上述步骤,得到一个包含保留时间 RT、质荷比(m/z)、同位素或加合物注释和峰强度信息的列表文件。runLC()本质是 XCMS 与 CAMERA两种方法集成的一个R函数,它既沿用了液相数据处理的经典方法XCMS以实现特征峰的提取,又结合CAMERA R包,实现对同位素、加合物和碎片离子峰的注释。相较于 XCMS,runLC()函数将每个步骤所需的参数全部包装成集,实现高度整合,使操作更加便捷和高效。


IP4M又整合了两种 GC-MS 原始数据预处理方法。metaMS中的 runGC()函数用于分析多个 GC-MS 数据文件,并生成峰值列表。它的标准化分析流程为:


第一步,对所有数据文件进行提峰,然后根据保留时间对这些峰进行分组,得到单个化合物所对应的谱图信息。


第二步,根据化合物的质谱信息与数据库进行比对,得到具体的物质信息。


eRah是近年来开发的一种针对 GC-MS 数据的峰拾取算法,它的最大特点是基于盲源分离法(blind source separation, BSS)使用多元统计分析技术对 GC-MS 色谱数据进行解卷积,降低了解卷积的复杂程度,提高了分析速度和准确度。


2.物质鉴定

IP4M 支持公共数据库和自建数据库来实现物质鉴定。现纳入的公共数据库包括人类代谢组数据库(Human Metabolome Database,HMDB)、Golm 代谢组数据库(Golm Metabolome Database,GMD)和美国国家标准与技术研究院数据库(National Institute of Standards and Technology,NIST)等,共约 15000 个化合物。


基于精准的分子质量(用于 LC-MS)和质谱高度相似性(用于 GC-MS) 原则,分别将这些信息与公共数据库或自建库的代谢物数据进行匹配。保留时间(retention time,RT)作为一个可选标准,用于与自建库(包含物质 RT 信息)相匹配的 LC-MS 物质鉴定。


IP4M 为 GC-MS 提供点积法(默认)和欧式距离计算质谱间的相似度,默认的最小相似度为 0.7,最大的保留时间窗为 0.2min;LC-MS 的默认最大百万分率(parts per million,ppm)为 10,最大保留时间窗为 0.2min。


3.数据调理

该模块整合了大量简单实用的数据处理工具,如离群值处理、缺失值填补、归一化、数据转化、数据结构预处理、基本统计量计算等功能,具体功能和处理方法如下表:

IP4M还提供对数变换和zScore变换使数据偏向正态分布,降低乘性噪声。此外,还集成了矩阵转置、目标行检索、样本或变量组合、基本统计计算等小功能,以方便分析、集成、认知数据及其结构。


多变量质控图


4. 统计分析

该模块的主要目标是寻找差异代谢物,并提取有用的特征变量作为生物标志物。将单变量统计分析和多维统计分析(包括机器学习方法)联合使用可以有效提高分析效度。具体包含的方法总结如下表:

OPLS-DA得分图及置换检验图


5. 通路分析

将统计分析得到的差异代谢物作为通路分析的输入,进一步分析潜在的差异代谢通路,寻找不同生理病理状态下具有重要生物学意义的潜在生物标志物及代谢通路。


本模块基于 MetaboAnalyst 4.0平台相应的分析策略、算法及通路数据库,构建通路富集分析和通路拓扑分析。在此基础上,IP4M在两方面进行了扩展和改良。


首先,将通路分析中的模式生物从原来的21种增加至67种,囊括的通路数从原来的1600增加至5871。新增数据库的全部信息来源于KEGG库,包含每个物种的详细代谢途径信息,如反应方程、底物、产物、关键酶、可逆和不可逆反应等信息。


另一方面,IP4M 提供了7种节点中心性算法,包括原始平台的出度中心性和中介中心性,和5种新增的度中心性、接近中心性、出-接近中心性、入-接近中心性和特征向量中心性


该模块由三部分内容组成。


第一部分:为目标代谢物或差异代谢物的基本信息检索,需要以代谢物名称作为输入,然后与多个公共数据库进行匹配,得到其相应的 ID号、物质名、分子式、分子量和所涉及的全部代谢通路。


第二部分:是广义的代谢通路分析,包含了67种模式生物,涉及共 5871 条代谢通路数据集,主要对差异代谢物进行通路富集分析以求得富集通路受影响的显著程度(即p值),同时进行通路拓扑分析求出该通路受影响的严重程度(即 Pathway Impact 值),其输入为上游的代谢物匹配文件,输出为富集得到的通路、p值和通路受影响程度,以及可视化图。


第三部:分为富集分析,该部分专为人群样本而设计,所提供 的数据集合细化到人类在不同病理(疾病状态)、生理,不同组织器官(血液、尿液、脑脊液等)和用药状态下的所有代谢通路信息。


 Predicted metabolite sets

库通路富集分析条形图

6. 其它统计分析方法

除常规的代谢组学数据分析方法外,IP4M还整合了多种通用功能,包括相关分析(自相关和互相关)、聚类分析、距离分析、线性回归分析、ROC分析、效能和样本量估算以及一些绘图工具。


相关方法包括 Pearson 相关、Spearman秩相关、Kendall相关和偏相关。子聚类分析将输入的变量分为几个类,并显示出每个聚类在样本/组之间的方差。


另外还提供7种常用的距离度量方法和7种聚类算法。


距离度量方法:

Euclidean, correlation, Minkowski, Canberra, binary, Manhattan, maximum

聚类算法:

ward, single, complete, average, mcquitty, median, centroid


差异代谢物汇总




12

   与现有工具

   的能比较

对于 MS 数据的预处理,IP4M分析能力与其它软件相当,甚至优于其它平台。除MS数据预处理功能外,数据调理、统计分析、通路分析等也对实验结果的获取十分重要。


IP4M在这三个主要环节都提供了经典或核心算法和各种可选方案,同时也保障了高质量的绘图和可视化


对于通路分析和通路富集分析,它整合了大多数模式生物相关的代谢通路数据库,以及为通路分析提供7种拓扑分析算法。


此外,高级分析功能模块中提供了更多实用的工具,它们有助于进一步探究和挖掘生物学价值,如回归分析、ROC分析等为潜在生物标志物的模型构建提供了方法。

 

IP4M的优势在于它具有全面的功能、稳定的性能、简单易用的软件平台,为代谢组学数据的一站式分析提供了强有力支持,可以作为代谢组学数据挖掘的一个强有力的工具。



团队发表的相关文献:

Dandan Liang, Quan Liu, Kejun Zhou, Wei Jia, Guoxiang Xie, Tianlu Chen. IP4M: an integrated platform for mass spectrometry‑based metabolomics data mining. BMC Bioinformatics. 2020, 21:444.






解锁更多精彩「代谢组学」相关资讯!

微信公众号:麦特绘谱

Tel:400-867-2686

Web: www.metaboprofile.com

识别二维码,关注我们

推荐
关闭