本文转载自微信公众号“小白学统计”,感谢作者授权。
这篇文章主要针对临床上大家常见的一些疑问进行综合解答,全部都以问答形式,快速而简要地回答这些问题,目的是提高大家对统计学方法的认识,避免一些基础错误。
1、定量资料的组间比较,一定要做正态性检验吗?
是的!
做正态性检验的目的,是要看两组数据是否分布正态。因为所有的统计方法,它的计算和检验,都是基于一定的前提条件的。比如t检验用于两组均值比较时,最终做出的统计学结论,是在数据满足正态分布这一前提下得出的。如果不满足,最后得出的结论就未必合理。
2、正态性检验结果显示P<0.05,就意味着数据不满足正态分布吗?
不一定!
大多数的统计软件中,提供四种正态性的统计学检验方法:Shapiro-Wilk(SW)检验、Kolmogorov-Smirnov(KS)检验、Cramer-vonMises(CVM)检验和Anderson-Darling(AD)检验。
这四种方法都是检验“数据满足正态性”这一原假设,所以,如果检验结果的P值小于0.05,提示可能数据不满足正态分布。
但是要记住一点,所有的假设检验都一样,数据越多,越容易推翻无效假设。换句话说,当样本量很大的时候,即使数据看起来已经非常像正态分布了,但是检验结果也会显示P<0.05。在大样本的时候,从统计学检验结果来看,会提示你的数据永远不符合正态分布。但这并不意味着数据就不满足正态分布,只是说明后者的数据较多而已。
正因为如此,不少统计学家并不建议用统计学检验的方法来判断正态性,而是推荐用图形等描述性方法来判断,虽然略带主观性,但考虑到多数的经典统计方法对“偏离正态”这一问题都是有一定抵抗力的,因此图形判断法还是比较有价值的。
3、标准差大于均值,就意味着不满足正态分布吗?
不一定!
大多数情况下,对于一些常规的定量资料,如身高、体重、血压值等,一般都是均值大于标准差,且表现为较为明显的正态分布。
标准差反映的是数据(围绕均值)的波动大小,如果数据波动太大,就会表现为标准差比较大。
当数据明显呈偏态时,说明数据的波动较大,一般标准差会比较大。但标准差大,却不一定意味着数据一定是偏态的。比如下面的图形,该数据共100例,均值为10.05,标准差为19.7,正态性检验结果显示,P=0.29,不能拒绝“正态性”这一假定,因此仍认为这是满足正态的。

这就有一个问题:有没有一个标准,当标准差大于均值多少倍的时候,才能认为不满足正态分布?
这个就没有了。实际中主要还是自己根据数据情况,根据直方图、正态性检验等综合判断。
4、统计学中就没有一个肯定的答案吗?
没有!
很多人曾问我一些看起来很简单的问题,比如:我做两组比较,应该用什么方法?我的数据是不是可以做回归分析?我的数据能不能用t检验?等等。包括上面的一些问题,标准差比均值大多少的时候能判断为非正态。我一般最常回答的是:这个没有标准答案,需要根据实际情况,具体问题具体分析。
统计学不像数学,数学就像是问你:明天太阳会从那边出来?你可以很明确地告诉他:从东边(排除一些特殊情况,不较真的情况下,这是必然规律)。统计学则像是问你:明天会下雨吗?即使是气象局,也只能告诉你,有90%的可能性会下雨。不会说,肯定会下。
统计学是帮助你做决策的,任何决策,都没有绝对肯定的答案。可能有人觉得,你不能肯定,告诉我个概率有什么用?听听卡耐基怎么说的吧:“如果你的判断准确率能达到55%,你就可以去华尔街日进斗金了”。 充分体现了统计学的重要性。
统计学体现的是长期、群体的趋势,在短期、个体中往往不起作用,这很正常。比如经常有人拿“邓小平吸了一辈子烟也没得肺癌”来反驳吸烟导致肺癌这一规律,而且还沾沾自喜。其实这正是不懂统计的表现。
对于某个人,某天,统计学一般很难做出正确的预测。比如股市,统计学难以告诉你明天涨跌,但如果有足够的信息,它可以告诉你长远来看,大概是一个什么样的变化趋势。同样,对一个人来说,统计学没法预测你到底会不会得肺癌,但从一个群体来说,统计学会告诉你大概有百分之多少的人可能会得肺癌。
所以,不要对统计学中没有肯定答案觉得失望,这就是现实。数学是理想世界,统计学是现实世界。
5、为什么有的文章直接写t检验,不提正态性结果,也发表了?
不要去管别人,按自己正确的方式来做就行了!
经常有人问我,你看别人这个文章,什么都没说,也不交代是否正态性,文章也都发表了,而且发表的也挺好。那我为什么要做正态性检验?
文章发表的因素很多,同样的一个主题,别人能发,你就未必能发。这种文章的发表有多种原因,可能是在别的地方交代了,只是你没有看到;也可能是真的没有交代,审稿人看了数据觉得应该是没有错;也可能是没有交代,甚至方法用错,审稿人也疏忽了没有发现然后就发表了;等等原因很多。
即使是发表的文章,也不能保证就没有错误。谁说文章发表了就不能撤稿了?
不要去管别人的文章怎么样,别人文章的错误,不能作为你犯错的依据。按照正确的方式去做,这是最好的答案。