内容来自:“小白学统计”微信公众号,感谢作者授权

这两天看到一个研究设计方案,其中里面有关于样本量估算部分,个人感觉比较有意思,特地拿出来介绍一下,各位可以考虑一下。当然,下面介绍的内容(包括指标、研究因素等)都是修改过的,只是说一下这个思路。

该研究拟对5种常见药物的疗效进行评价(疗效用有效率表示),采用了单组目标值法,即设定一固定的有效率参数(如90%),看这5种药物在治疗后一段时间(如1个月),其有效率是否能达到90%

思路看起来不难,就是一个单组的假设检验,根据研究数据的有效率,与已有参数进行比较。该研究方案中关于样本量的估算是这样的:采用单组目标值法,假定每种药物的有效率均为80%,然后采用单样本率的比较,设定alpha为0.05,把握度为0.9,固定参数(有效率)为90%,采用PASS软件不难得到样本量为122。然后考虑到一共5种药物,根据122*5=610例。以此作为最终的样本量。

以下为思考的分割线。大家可以想一想,这一样本量估算结果是否合理。考虑好后再看下面的内容。

我们再来看一下这一样本量估算结果。其实关键的问题在于,是否需要在估算出样本量之后再乘以药物的数目。研究方案的设想是,既然有5种药物,那对每一种药物分别分析,所以需要乘以5。

但是,从假设检验的角度重新考虑一下。这里的5种药物分别进行检验,是一个什么问题呢?其实就是多重假设的问题,你可以可以理解为分层,分层分析每一药物的有效率是否达到了预期目标。这种情况下,对于多重假设检验,通常会产生假阳性错误,因为假设检验的次数太多了,做的决策太多了,做决策多了,必然就更容易犯错误,所以假阳性的错误就升高了。所以,为了降低假阳性错误,需要控制一类错误。最常见的方法就是把检验水准总体控制在0.05,也就是说,把做了5次决策总的犯错误的率控制在0.05。那对于每一种药物来说,就可以控制在0.05/5=0.01。当然这是平均分的情况下,也就是认为每种药物的重要性是一样的。如果认为有的药需要更严格控制,也可以把其中一种的一类错误设为0.001,这都没问题,取决于你的专业知识和研究目的。

也就是说,其实本研究不需要对总例数乘以5,只需要控制总的阳性错误。在计算样本量的时候,可以把一类错误设为0.01,此时估算的样本量为166。

当然,其实这个研究还有一个隐藏的问题或者说矛盾是:这5种药物是否需要分层。理论上,如果需要分层,那意味着这5种药物的有效率本身就不同,可能有的是70%,有的是80%,设定的目标值参数也可能有所不同(视研究目的而定)。而该研究方案尽管提出了要根据药物分5种,但5种药物假定的有效率完全相同,目标值也完全相同。换句话说,研究方案已经默认了5种药物是一致的,那这种情况下,是否还有必要分层呢?所以这是一个矛盾所在:如果要分层,但又假定每层的参数和统计量完全相等;如果不需要分层,却又根据层数扩大了例数

所以,通过这个案例主要是想说,样本量估算公式很容易,利用软件也很容易求出具体的估算值。但是比样本量估算公式更重要的是研究目的和研究思路。一定要有明确的研究目的,而且一定要弄清楚研究内容如何去适配研究目的,否则很容易陷入矛盾境地。

医咖会在2023年上线了样本量计算小工具,将既往推出的样本量计算教程融入到每一步操作中,并有每个参数的说明以及取值建

打开网易新闻 查看更多图片