内容来自:“小白学统计”微信公众号,感谢作者授权
预测模型开发中的样本量确定可以通过两种主要方法:经验法则和基于特定标准的计算方法。
样本量确定的经验法则:
10 EPV(每个变量10个事件)和10 EPP(每个候选预测参数10个事件)是比较常用的经验法则。如果只比较这两个原则,建议选择10 EPP而不是10 EPV,EPP可以避免对“变量”术语的潜在误解。例如,当一个连续变量如“年龄”被纳入模型时,它对应一个估计参数。但是,添加年龄的二次项会增加到两个参数。同样,将年龄分类为五组需要估计四个参数。换句话说,一个变量并不等于一个参数,一个变量很可能是多个参数。所以不能简单根据变量数来确定样本量。
尽管10 EPP原则很简单,但也存在不少争议。有的模拟研究建议,增加10 EPP到20 EPP甚至50 EPP以减少偏差。这种不一致性源于所需事件取决于多种因素,如预测因子的效应量、研究群体中的结果比例和预测因子的分布。
样本量确定的计算方法:
Riley等人提出的计算方法包括五个步骤[1-3] :
步骤1:计算样本量以确保整体结果风险的精确估计,相当于保证截距的精准估计,推荐的误差边界为0.05。
步骤2:计算样本量以确保平均绝对预测误差(MAPE)小于5%。这是从预测和真实的差值角度来说的。
步骤3:计算样本量以确保全局收缩因子大于0.9,减少过拟合。
步骤4:计算样本量以确保显著和调整后的R²Nagelkerke之间的绝对差异不超过0.05。 步骤3和4都是从过拟合角度来说的。
步骤5:选择四个计算得出的样本量中最大的作为最终样本量。
如果大家想直接略过理论部分,直接看如何计算,Riley等给出了一个r包pmsampsize。比如,结局是二分类变量;已知以往文献的roc曲线下面积为0.8,拟纳入15个参数,结局患病率约为0.1。那就可以用下面语句实现样本量估算
pmsampsize(type = "b", cstatistic = 0.8, parameters=15, prevalence = 0.1)
虽然计算方法在理论上比经验法则更合理,因为它考虑了多个因素,但仍存在许多实际挑战。
首先,尽管作者提供了样本量计算所需参数的推荐值,但使用固定参数值并不可取。例如,在步骤1中,作者固定误差为0.05并不合理。比如,对于5%和50%的患病率,都采用0.05的误差,显然不大合理。因此,在实际应用中,仍需结合临床知识和先前文献进行综合判断。
其次,从现有文献中获取预先指定的参数存在挑战。在Paula Dhiman等人的系统综述中,62项研究中的152个评估模型只有一个报告了R²,而仅四个报告了MAPE或RMSE。因此,在实际计算中,参数的确定涉及一定程度的主观性。
使用计算方法确定EPP:
为简化临床应用,我们根据前述五个步骤计算了不同c统计量、事件比例和参数数量的样本量和相应的EPP数量。结果汇总于下表。
我们的分析表明,当参数数量在10个或更少时,EPP的数量受到参数数量和事件比例的显著影响。然而,当参数数量超过10时,EPP的数量主要由事件比例决定。在实际应用中,参数数量通常超过10,因此20 EPP通常是足够的。当事件比例低于0.2时,10 EPP也足够。
上面表格可以较为方便地用于实际。例如,如果以往研究表明c统计量约为0.8,事件比例约为0.2,并计划在模型中包括20个参数,则所需的样本量为9 EPP,相当于180个事件。因此,总样本量为180/0.2 = 900例。
其它实用性考虑:
预测参数的数量指的是最初考虑纳入的参数,而不是最终模型中包含的参数。例如,若最初考虑了20个参数,但在变量选择后只纳入了8个,则EPP原则应基于原来的20个参数应用。
经验法则和计算方法主要针对回归模型,如logistic回归。然而,使用神经网络等机器学习技术时,参数数量通常远超回归模型。因此,机器学习方法通常需要的样本量比回归模型大得多。因此,使用机器学习方法时,建议选择最大的可行样本量。
上述方法主要关注模型开发,而外部验证所需的样本量要求可能不同。已有研究者提出了四个标准来准确估计外部验证所需的样本量,包括精确估计观察/预期(O/E)比率、校准斜率、c统计量,以及在特定概率阈值下的标准化净收益。具体可见Riley, R.D. et al. (2021)文章[4]。
参考文献:
1. BMJ. 2020 Mar 18:368:m441.
2. Stat Med. 2019;38(7):1276-1296.
3. Stat Med. 2019;38(7):1262-1275.
4. Stat Med. 2021;40(19):4230-4251.
医咖会员全面升级,课程增多,AI工具升级!