临床研究专题|样本量如何计算?本文一看便知
对于代谢组而言,目前较为容易开展的临床研究类型是观察性的横断面研究,即通过代谢组找到与某种疾病相关的代谢标志物,后续进行疾病的诊断或开展一些基础的机制研究工作。因此接下来跟大家分享下横断面研究的方案设计、样本量计算以及样本纳排标准。
方案设计
首先来看两个案例:
● 期刊:Gastroenterology
● 发表时间:2019
● 影响因子:19.819
研究思路
① 发现阶段1对于360名受试者进行高通量代谢组检测,筛选到30个差异代谢物;
② 发现阶段2对于1594名受试者进行高通量检测,筛到7个与发现阶段1中共有的差异代谢物,然后通过二元逻辑回归分析得出2个潜在biomarker;
③ 建模阶段对于900名受试者(来源于发现阶段2 )进行2个biomarker的靶向检测,并构建了诊断模型;
④ 验证阶段对于1528名受试者进行2个biomarker的靶向检测,验证了模型的诊断效能。
● 期刊:Gut
● 发表时间:2021
● 影响因子:19.819
研究思路
① 发现阶段对于92例受试者血清进行高通量代谢组检测,并选择与血清匹配的44例粪便样本进行宏基因组检测,经联合分析共识别到与肠道微生物组相关的代谢产物322种,使用 LASSO算法筛选并鉴定得到8个代谢物;
② 建模阶段对于72例正常个体和120例结直肠异常患者,使用靶向方法测量8种代谢物的丰度,并用逻辑回归方法生成预测模型;
③ 验证阶段对于验证队列中103例结直肠异常患者和53例健康个体进行8种代谢物的靶向检测,已评估此模型的预测性能。
通过以上两篇经典案例我们不难发现,代谢组biomarker筛选流程通常包含三个阶段:①发现阶段,在发现队列中通过高通量代谢组筛选出候选biomarker;②建模阶段,在建模队列中通过靶向方法检测筛选到的biomarker,并构建判别模型;③验证阶段,在验证队列中靶向检测biomarker,以验证模型判别效能。
那我们在代谢组文章中经常看到的发现集、训练集、验证集和测试集分别是指的哪个阶段呢?
这几个词汇其实是来源于机器学习的过程。在机器学习中,一般将样本分成独立的三部分:训练集(train set),验证集(validation set)和测试集(test set)。
✦训练集 —— 用于模型拟合的数据样本。
✦验证集 —— 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。
✦测试集 —— 用来评估最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。
将这几个概念映射到代谢标志物筛选流程中,则发现阶段1中的人群对应为训练集,部分文章也称其为发现集;发现阶段2中的人群对应为验证集;验证阶段中的人群对应测试集;建模阶段中的人群可来源于验证集,也可来源于测试集(独立于验证阶段中的人群)。
样本量估算
在明确了研究思路以后,接下来我们就看一下具体的样本数应该如何估算。
影响样本量计算的重要参数如下:
①研究设计类型(如横断面研究或随机对照研究)
②结局指标类型(二分类变量或连续变量)
③结局指标的预计值(敏感度或特异性或平均值或AUC)
④容许误差
⑤ 检验水准α(通常取α=0.05)
⑥检验效能1-β(通常为80%或更高)
⑦ Case组与control组的比例:control组的样本量一般不宜少于Case组的样本量,通常是等量的。
对于横断面研究,单样本临床诊断试验的样本量计算方法如下:
01
根据灵敏度及特异性计算样本量
δ指容许的灵敏度或特异度95%区间的宽度,是研究者人为指定,一般定在0.03~0.1。
例如将参数设置为⇩⇩⇩
特异度:90%±10%;
敏感度:80%±10%;
显著水平(α):0.05;
置信度(1-α):0.95;
检验类型:two-sided test
根据公式计算得出:
根据敏感度和特异度分别计算出两个样本量数值,选择较大者即为所需要的样本量。本例公式计算得出样本量为62例。
也可使用PASS软件直接进行计算:
敏感度计算所得样本量
特异度计算所得样本量
本例结果显示:通过敏感度计算所得 N=70,通过特异度计算所得N=44,选择数值大者,即需要70例研究对象 。
PASS软件计算结果与公式计算结果稍有偏差,可以选择样本数大的结果,即所需要样本数为对照70例,病例70例。
02
根据AUC值计算样本量
软件:MedCalc
例如将参数设置为⇩⇩⇩
预计AUC=0.9
检验水准α:0.05
检验效能1-β:0.9
无效假设:AUC=0.8
根据软件计算得出样本量为82+82=164例
在机器学习中,一般训练集、验证集和测试集三者切分的比例是6:2:2。若不设置验证集,则训练集与测试集的切分比例为7:3,映射到代谢标志物筛选流程中,则对应建模队列与验证队列的比例为7:3。
样本纳排标准
代谢组结果易受环境等外在因素影响,因此若要筛选到真阳性的代谢biomarker,样本的入组条件需进行严格的限制。
01
样本纳入条件
✦根据实验设计,随机选择符合分组要求的样本。
✦ 尽量保证年龄,性别等与研究无关的临床指标在各分组间无差异。
✦样本选择应尽量具有时间、地域的随机性。
✦纳入的样本符合采样标准流程,并且相应的临床信息完整。
常见待收集临床信息如下表:
02
样本排除条件
✦样本具有严重的急性感染;
✦样本具有严重贫血;
✦样本肝肾功能不全;
✦样本患有肿瘤或多处肿瘤;
✦样本处于妊娠期;
✦样本患有自身免疫缺陷疾病;
✦样本患有高血脂和高黄疸。
以上排除条件仅应用于非本项疾病的研究中(即若开展妊娠期糖尿病相关研究,则第5点排除条件不适用)。
99%的代谢组学研究者都在阅读下文:
客服微信:18062045271
咨询电话:027-62433042
邮箱:support@metware.cn
网址:www.metware.cn
我就知道你“在看”