探“云”指南 | 微生物ROC曲线
接收者操作特征曲线(Receiveroperating characteristic curve,ROC 曲线)是机器学习中一种有效的有监督学习方法,该分析属于二元分类算法,用于处理只有两种分类的问题。给定一个二元分类模型和它的阈值,ROC 曲线就能从所有样本的(阳性/阴性)真实值和预测值计算出一个坐标点。其中,完美的预测为曲线左上角的点。那么接下来我们就看看微生物ROC曲线小工具是怎么使用的吧。
功能介绍
根据特征丰度数据,如差异物种或生物标记物等,利用10折交叉验证,对每一折划分训练集及验证集,先对训练集构建随机森林模型,再用此模型预测验证集,构建ROC曲线,最后对10折进行平均处理得最终ROC曲线。
文件要求
01
物种丰度表文件
第一列为特征物种名称,其余列表头为样本名称,对应数据为丰度值。在该文件中要求每组样品数量需在50以上,小于50结果准确度会降低。(支持xls,xlsx,txt,csv格式输入)
图1 | 物种丰度表文件格式示例
02
样本对应分组表文件
样本对应分组信息表,组数必须为2。第一列为样本名称,第二列为样品对应的分组信息。请注意列名的首字母大写问题,如与图中所示有异可能会报错。(支持xls,xlsx,txt,csv格式输入)
图2 | 表型文件
参数调整
01
主要参数
图3 | 主要参数
作图步骤
01
准备工作
请于上传文件前首先查看“重要提示”的提示信息以及“使用说明”中的示例文件格式,根据提示进行文件准备。
02
主要参数设置
①请于主要参数中的特征丰度表、样品对应分组处上传您所要进行分析的文件,为必填参数。在“选择文件”后显示上传的文件名说明上传成功。
此处为上传成功示例:
图4 | 文件上传成功示例
②任务命名:对结果进行命名用于区分不同的任务,默认为当前工具名称_结果创建日期时间,在历史记录的注释处可见,可接受默认或自行输入。
03
最终提交
文件上传成功后点击“提交”,右侧工作区将提示您所需时间。有时会遇到任务排队情况,请您耐心稍等。
如图所示区域:
图5 | 工具预估耗时提示处
结果分析
(图片为使用示例文件及其他参数保持默认时的结果)
01
结果下载
分析结果保存6个月,请注意及时下载保存,点击“结果下载”可将结果保存至本地。
图6 | 结果展示界面
02
结果说明
利用特征丰度数据,在随机森林模型的基础上,利用10折交叉验证构建了ROC曲线。
如图:
横坐标为假阳性率,纵坐标为真阳性率,该指标越高代表准确率越高。ROC曲线是反映假阳性率与真阳性率之间的动态关系的曲线,一般情况下,曲线都应该处于(0, 0)和(1, 1)连线的上方。蓝色曲线为10折后取的平均曲线,真阳性率增长得越快、斜率越大,代表模型的分类性能就越好。ROC曲线上最靠近左上角的点其灵敏度和特异度之和最大,这个点或其邻近点常被称为诊断参考值。AUC为曲线下面积,阴影部分为上下1个标准差。
图7 | ROC曲线示例
历史记录
点击欧易集团云平台界面右上角的“登录”,您可以进行免费注册,用您注册的账号登录欧易云平台个人中心,在此之后使用云平台所有的小工具将会存有记录。您可以点击下图中的“历史记录”查看使用微生物ROC曲线小工具的使用记录,或点击右上角“个人中心”查看所有小工具任务记录。
图8 | 历史记录示例
常见Q&A
请问对上传的文件格式有什么要求?
您好,首先感谢您的咨询。对于物种丰度表文件,我们要求每组最少需50个样本;对于样品对应分组信息表,我们要求组数必须为2,否则会报错。
猜你想看
1、探“云”指南 | 免费物种功能贡献度分析小工具不容错过!
2、探“云”指南 | 拜托!谁不喜欢清晰直观的条形图啊!!!
END
排版人:七七
原创声明:本文由欧易生物(OEBIOTECH)学术团队报道,本文著作权归文章作者所有。欢迎个人转发及分享,未经作者的允许禁止转载。
点击“阅读全文” 收获更多精彩
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章
-
微信文章