临床预测模型，如何估算样本量

内容来自：“小白学统计”微信公众号，感谢作者授权

预测模型开发中的样本量确定可以通过两种主要方法：经验法则和基于特定标准的计算方法。

样本量确定的经验法则：

10 EPV（每个变量10个事件）和10 EPP（每个候选预测参数10个事件）是比较常用的经验法则。如果只比较这两个原则，建议选择10 EPP而不是10 EPV，EPP可以避免对“变量”术语的潜在误解。例如，当一个连续变量如“年龄”被纳入模型时，它对应一个估计参数。但是，添加年龄的二次项会增加到两个参数。同样，将年龄分类为五组需要估计四个参数。换句话说，一个变量并不等于一个参数，一个变量很可能是多个参数。所以不能简单根据变量数来确定样本量。

尽管10 EPP原则很简单，但也存在不少争议。有的模拟研究建议，增加10 EPP到20 EPP甚至50 EPP以减少偏差。这种不一致性源于所需事件取决于多种因素，如预测因子的效应量、研究群体中的结果比例和预测因子的分布。

样本量确定的计算方法：

Riley等人提出的计算方法包括五个步骤[1-3] ：

步骤1：计算样本量以确保整体结果风险的精确估计，相当于保证截距的精准估计，推荐的误差边界为0.05。

步骤2：计算样本量以确保平均绝对预测误差（MAPE）小于5%。这是从预测和真实的差值角度来说的。

步骤3：计算样本量以确保全局收缩因子大于0.9，减少过拟合。

步骤4：计算样本量以确保显著和调整后的R²Nagelkerke之间的绝对差异不超过0.05。步骤3和4都是从过拟合角度来说的。

步骤5：选择四个计算得出的样本量中最大的作为最终样本量。

如果大家想直接略过理论部分，直接看如何计算，Riley等给出了一个r包pmsampsize。比如，结局是二分类变量；已知以往文献的roc曲线下面积为0.8，拟纳入15个参数，结局患病率约为0.1。那就可以用下面语句实现样本量估算

pmsampsize(type = "b", cstatistic = 0.8, parameters=15, prevalence = 0.1)

虽然计算方法在理论上比经验法则更合理，因为它考虑了多个因素，但仍存在许多实际挑战。

首先，尽管作者提供了样本量计算所需参数的推荐值，但使用固定参数值并不可取。例如，在步骤1中，作者固定误差为0.05并不合理。比如，对于5%和50%的患病率，都采用0.05的误差，显然不大合理。因此，在实际应用中，仍需结合临床知识和先前文献进行综合判断。

其次，从现有文献中获取预先指定的参数存在挑战。在Paula Dhiman等人的系统综述中，62项研究中的152个评估模型只有一个报告了R²，而仅四个报告了MAPE或RMSE。因此，在实际计算中，参数的确定涉及一定程度的主观性。

使用计算方法确定EPP：

为简化临床应用，我们根据前述五个步骤计算了不同c统计量、事件比例和参数数量的样本量和相应的EPP数量。结果汇总于下表。

我们的分析表明，当参数数量在10个或更少时，EPP的数量受到参数数量和事件比例的显著影响。然而，当参数数量超过10时，EPP的数量主要由事件比例决定。在实际应用中，参数数量通常超过10，因此20 EPP通常是足够的。当事件比例低于0.2时，10 EPP也足够。

上面表格可以较为方便地用于实际。例如，如果以往研究表明c统计量约为0.8，事件比例约为0.2，并计划在模型中包括20个参数，则所需的样本量为9 EPP，相当于180个事件。因此，总样本量为180/0.2 = 900例。

其它实用性考虑：

预测参数的数量指的是最初考虑纳入的参数，而不是最终模型中包含的参数。例如，若最初考虑了20个参数，但在变量选择后只纳入了8个，则EPP原则应基于原来的20个参数应用。

经验法则和计算方法主要针对回归模型，如logistic回归。然而，使用神经网络等机器学习技术时，参数数量通常远超回归模型。因此，机器学习方法通常需要的样本量比回归模型大得多。因此，使用机器学习方法时，建议选择最大的可行样本量。

上述方法主要关注模型开发，而外部验证所需的样本量要求可能不同。已有研究者提出了四个标准来准确估计外部验证所需的样本量，包括精确估计观察/预期（O/E）比率、校准斜率、c统计量，以及在特定概率阈值下的标准化净收益。具体可见Riley, R.D. et al. (2021)文章[4]。

参考文献：

1. BMJ. 2020 Mar 18:368:m441.

2. Stat Med. 2019;38(7):1276-1296.

3. Stat Med. 2019;38(7):1262-1275.

4. Stat Med. 2021;40(19):4230-4251.

医咖会员全面升级，课程增多，AI工具升级！

临床预测模型，如何估算样本量

中国科学院用数学研究深度学习，助力理解神经网络深度的有效性

新手必知：如何进行样本量计算？

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

医学预测模型方法这么多，我该选择哪一个？

医生提醒：增强CT有风险！该做再做，不该做别没事找事！

逻辑课是怎样消失的

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

小伙买链子脖子变绿，气愤找商店老板理论，老板一拳解决问题

一个是汽车模型，一个汽车模特

原来大家都在互不揭穿，看完后才发现：果然世界是个巨大的草台班

巴沙尔回归：叙利亚的希望之光

ChatGPT拒绝谈论这个人，没人知道为什么

伤亡激增9倍，4万乌军空降，落在朝军阵地，血战5小时被全歼

在美利坚开超市的风险指南

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

外国实验室里的秘密，怎么还会有鲛人模型，这是真的吗？

临床预测模型，如何估算样本量

中国科学院用数学研究深度学习，助力理解神经网络深度的有效性

新手必知：如何进行样本量计算？

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增 一席

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

医学预测模型方法这么多，我该选择哪一个？

医生提醒：增强CT有风险！该做再做，不该做别没事找事 ！

逻辑课是怎样消失的

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

小伙买链子脖子变绿，气愤找商店老板理论，老板一拳解决问题

一个是汽车模型，一个汽车模特

原来大家都在互不揭穿，看完后才发现：果然世界是个巨大的草台班

巴沙尔回归：叙利亚的希望之光

ChatGPT拒绝谈论这个人，没人知道为什么

伤亡激增9倍，4万乌军空降，落在朝军阵地，血战5小时被全歼

在美利坚开超市的风险指南

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

外国实验室里的秘密，怎么还会有鲛人模型，这是真的吗？

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席

医生提醒：增强CT有风险！该做再做，不该做别没事找事！