关注公众号

关注公众号

手机扫码查看

手机查看

临床研究专题|样本量如何计算?本文一看便知

迈维代谢
2022.1.04

64b9af0ac60f99d24d90cbb714f884cd.jpeg


对于代谢组而言,目前较为容易开展的临床研究类型是观察性的横断面研究,即通过代谢组找到与某种疾病相关的代谢标志物,后续进行疾病的诊断或开展一些基础的机制研究工作。因此接下来跟大家分享下横断面研究的方案设计、样本量计算以及样本纳排标准。

     方案设计

首先来看两个案例:

e51d8bca79d5e10cce4ee8697a503b58.png
Review

  期刊:Gastroenterology

 ● 发表时间:2019

  影响因子:19.819


研究思路  


ea817053bab3e48b4cd33b1a7d003e19.png


① 发现阶段1对于360名受试者进行高通量代谢组检测,筛选到30个差异代谢物;


 发现阶段2对于1594名受试者进行高通量检测,筛到7个与发现阶段1中共有的差异代谢物,然后通过二元逻辑回归分析得出2个潜在biomarker;


 建模阶段对于900名受试者(来源于发现阶段2 )进行2个biomarker的靶向检测,并构建了诊断模型;


 验证阶段对于1528名受试者进行2个biomarker的靶向检测,验证了模型的诊断效能。


6bdd6dccb22f1c228b48664f8ae93c10.png
Reviews

  期刊:Gut

 ● 发表时间:2021

  影响因子:19.819


研究思路  


fe32cbca61d3f965c89402c87708daf9.png


① 发现阶段对于92例受试者血清进行高通量代谢组检测,并选择与血清匹配的44例粪便样本进行宏基因组检测,经联合分析共识别到与肠道微生物组相关的代谢产物322种,使用 LASSO算法筛选并鉴定得到8个代谢物;


 建模阶段对于72例正常个体和120例结直肠异常患者,使用靶向方法测量8种代谢物的丰度,并用逻辑回归方法生成预测模型;


 验证阶段对于验证队列中103例结直肠异常患者和53例健康个体进行8种代谢物的靶向检测,已评估此模型的预测性能。

2a5bb1a7977e7a46f59bc9557c2314c2.gif


通过以上两篇经典案例我们不难发现,代谢组biomarker筛选流程通常包含三个阶段:①发现阶段,在发现队列中通过高通量代谢组筛选出候选biomarker;②建模阶段,在建模队列中通过靶向方法检测筛选到的biomarker,并构建判别模型;③验证阶段,在验证队列中靶向检测biomarker,以验证模型判别效能。


7d0f977d3e720f6553a15aa268098eb9.png



那我们在代谢组文章中经常看到的发现集、训练集、验证集测试集分别是指的哪个阶段呢?


这几个词汇其实是来源于机器学习的过程。在机器学习中,一般将样本分成独立的三部分:训练集(train set),验证集(validation set)和测试集(test set)。


训练集 —— 用于模型拟合的数据样本。

验证集 —— 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。

测试集 —— 用来评估最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。


将这几个概念映射到代谢标志物筛选流程中,则发现阶段1中的人群对应为训练集,部分文章也称其为发现集;发现阶段2中的人群对应为验证集;验证阶段中的人群对应测试集;建模阶段中的人群可来源于验证集,也可来源于测试集(独立于验证阶段中的人群)。


    样本量估算

在明确了研究思路以后,接下来我们就看一下具体的样本数应该如何估算。


影响样本量计算的重要参数如下:

研究设计类型(如横断面研究或随机对照研究)

结局指标类型(二分类变量或连续变量)

结局指标的预计值(敏感度或特异性或平均值或AUC)

容许误差

⑤ 检验水准α(通常取α=0.05)

检验效能1-β(通为80%或更高)

 Case组与control组的比例:control组的样本量一般不宜少于Case组的样本量,通常是等量的。


对于横断面研究,单样本临床诊断试验的样本量计算方法如下:

01

根据灵敏度及特异性计算样本量

b75a1d1242cde806afd08210e32b8ead.png


δ指容许的灵敏度或特异度95%区间的宽度,是研究者人为指定,一般定在0.03~0.1。


例如将参数设置为⇩⇩⇩

特异度:90%±10%

敏感度:80%±10%

显著水平(α):0.05

置信度(1-α):0.95

检验类型:two-sided test


根据公式计算得出:


fe619dc6247d2fa52a11460816377d53.png



根据敏感度和特异度分别计算出两个样本量数值,选择较大者即为所需要的样本量。本例公式计算得出样本量为62例。



也可使用PASS软件直接进行计算:


e104d1d3c76dc9fcbd41aee358c92167.png

    

敏感度计算所得样本量


1b4071e2054b8482a8b1d0df4f21c201.png

    

特异度计算所得样本量


本例结果显示:通过敏感度计算所得 N=70,通过特异度计算所得N=44,选择数值大者,即需要70例研究对象 。


PASS软件计算结果与公式计算结果稍有偏差,可以选择样本数大的结果,即所需要样本数为对照70例,病例70例。


02

根据AUC值计算样本量

软件:MedCalc

例如将参数设置为⇩⇩⇩

预计AUC=0.9

检验水准α:0.05

检验效能1-β:0.9

无效假设:AUC=0.8


d9311dc74b2bfccb73db686426641f75.png

根据软件计算得出样本量为82+82=164


在机器学习中,一般训练集、验证集和测试集三者切分的比例是6:2:2。若不设置验证集,则训练集与测试集的切分比例为7:3,映射到代谢标志物筛选流程中,则对应建模队列与验证队列的比例为7:3。

    样本纳排标准

代谢组结果易受环境等外在因素影响,因此若要筛选到真阳性的代谢biomarker,样本的入组条件需进行严格的限制。

01

样本纳入条件

✦根据实验设计,随机选择符合分组要求的样本。

✦ 尽量保证年龄,性别等与研究无关的临床指标在各分组间无差异。

✦样本选择应尽量具有时间、地域的随机性。

✦纳入的样本符合采样标准流程,并且相应的临床信息完整。


常见待收集临床信息如下表:

b81c37b9a48f0cc01bd030d0e0783385.png


02

样本排除条件

✦样本具有严重的急性感染;

✦样本具有严重贫血;

✦样本肝肾功能不全;

✦样本患有肿瘤或多处肿瘤;

✦样本处于妊娠期;

✦样本患有自身免疫缺陷疾病;

✦样本患有高血脂和高黄疸。


以上排除条件仅应用于非本项疾病的研究中(即若开展妊娠期糖尿病相关研究,则第5点排除条件不适用)。

END
f1b7a852450c4f6becd557d59428d70a.png
039e74882c7f82143b53afcc89ee52d4.gif

99%的代谢组学研究者都在阅读下文:

临床研究专题 | 99%的临床研究类型都在这里

回放集锦 | 一键获取好课连堂6讲课件+回放

揭秘阿圭罗退役真相

喜讯!迈维代谢斥资千万成为第一家引进timsTOF fleX的第三方科研服务公司

996a75f323f9b291e084199f8a4c24aa.gif

客服微信:18062045271

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”

248cd138ef1f8b06443d5d745bbb25e9.gif
文章作者
推荐
关闭