几个常识性概念与人口预测
不少媒体在讨论人口问题时也会出现常识性错误,如混淆出生率和生育率,或在生育率数据后面加百分号。本文用通俗语言解释这些概念并介绍人口预测的方法。理解本文的主体只需初中数学。会编程的读者可根据本文的介绍编写自己的人口预测程序。
1)反映生育情况的概念
1.1) 出生率
出生率是指当年出生人口相对年中总人口的比率,一般带百分号或千分号。
例如,中国2022年的出生率是0.677% = 956/141218,分母中的年中人口由2021和2022年两年年末总人口的平均近似。
分母使用年中而非年末数据是因为使用时间颗粒的中间值来近似,比使用其边缘值,更能减小颗粒度不够精细带来的误差。
长期来看,出生率要维持在1/(预期寿命)的水平,才能保持总人口稳定。现在中国的预期寿命是78岁,出生率要达到1/78 = 1.28%,即每年出生14000*1.28% ≈1800万人,才能维持14亿总人口。
这个很好理解。每年出生1800万人都正好活78岁,总人口就是78*1800万,即14亿。2022年出生的956万只对应于7.5亿的总人口。但这并不意味着中国人口能维持7.5亿;按目前趋势,出生人口会无底线地不断下滑。
每出生100个女孩对应出生的男孩数被称为出生性别比。自然出生性别比是106。中国出生性别比在1980年代以前处在105-110之间,但在生育限制政策严厉之后一路上升,至2000年代初期一度超过120,近年随限制政策退出逐步回落到110左右。
出生率很直观,但受人口年龄结构的影响。前不久有篇文章根据深圳出生率在广东各地市居首就得出深圳人很能生的错误结论;深圳相对更高出生率只是因为其年轻人占比更高。
1.2) 生育率
相比出生率,人们更常用生育率来刻画生育情况。任何一个年龄段的生育率是指,该年龄段女性当年活产的孩子数除以该年龄段的年中女性数量。如果今年25岁的女性有850万人,她们年内共生育了150万小孩,那今年25岁女性的生育率就是150/850 = 0.176。
我们把按女性年龄分列的生育率称为生育率表。一般只考虑15-49岁的女性,因为该区间以外的女性生育极为罕见。
人口统计把15-49岁区间按1岁分成35段,或按5岁等分成7段。采用哪种分段对分析结果影响有限。我个人倾向于使用颗粒度更细的按1岁分段。
然而,使用35个或7个数值的生育率表来表达很繁杂,所以会把生育率表用一两个指标来概括。最常用的概括性指标是总和生育率和平均生育年龄。
总和生育率是指,每个年龄段的生育率加和值,一般不带百分号。如果一个女性从出生到育龄结束前无夭折风险,在每个年龄生育的概率正好是当年这个年龄的生育率,那总和生育率就是该女性终生累计生育孩子数,可通俗地理解为女性“平均”生育的孩子数。
因此,总和生育率是生育率表的一个具可解释意义的概括。另一个概括性指标是平均生育年龄,即以分年龄生育率为权重,各年龄段的中间年龄的加权平均。
总和生育率和平均生育年龄完全由生育率表决定,与人口的年龄结构关系。其计算所需的各年龄段的女性及其生育的孩子数量,一般由抽样调查获得。
基于代表性不好的抽样框所估算的生育率可存在巨大的偏差,给数据扭曲提供了巨大的空间。从2010年到2015年,由每年出生人口推算的总和生育率与抽样调查生育率相差10%-40%,严重误导决策。
容易让人困惑的是,总和生育率一般又简称为生育率。我们说中国2022年生育率是1.07时,这里的生育率就是总和生育率。
出生率和生育率听起来语义接近,但只要记住出生率侧重于多少小孩出生,而生育率侧重于女性的生育力度,就不容易混淆。
1.3)更替水平
人们通常把维持人口数量代际稳定所需的总和生育率,称为更替水平。总和生育率处于更替水平意味着,当下出生的人与其父母辈在在数量上持平,即数量上可以替换上辈人。
要准确得出更替水平,需针对具体人口做模拟计算,但直观上可由下式估算:
(1+出生性别比/100)/女性从出生到育龄的存活率。
对106的出生性别比,不考虑女性夭折,更替水平为(1+106/100)/1 = 2.06,即100个女性生100*2.06 = 206个小孩,即100个女性、106个男性,正好替代父母辈。再除以存活率意在补偿女性生育前的夭折。
发达国家更替水平约为2.07。在严厉生育限制时期,中国出生性别比和女性死亡率都高于发达国家,需要更高的更替水平,如2.2才能维持人口代际稳定。考虑到二孩政策实施后,出生性别比逐步回落但依然高于自然水平,我现在用2.1来作为中国的更替水平。
联合国统一把2.1设定为更替水平,会相对高估发展中国家的人口增长。我不确定这到底是否有意,但知道联合国是对中国人口长期高估最严重的机构。
2) 反映死亡情况的概念
2.1)死亡率
死亡率是指当年死亡人数相对年中总人口的比率,一般带百分号或千分号。
死亡率也受人口年龄结构的影响。例如,中国人口在每个年龄的死亡风险都要小于巴基斯坦,但总死亡率却高于巴基斯坦,就是因为中国年龄结构更老化。
我们也可定义任何一个性别和年龄段的死亡率,称按性别和年龄段分列的死亡率为死亡率表。人口统计一般把年龄分成0岁、1岁、… 、99岁、100岁和以上共101段。
2.2) 预期寿命
预期寿命可用来概括死亡率表,指一个人如果在不同岁数死亡的概率等于当年这个年龄的死亡率,其在出生时的预期存活岁数。预期寿命也被通俗地称为平均寿命。
假设当年0岁、1岁、2岁、…的死亡率分别是0.5%、0.0703.%、0.0603%、…。那10000个出生的人中,
死于0岁的人数是 10000*0.5% = 50,
死于1岁的人数是 9950*0.0703% = 7,
死于2岁的人数是 9943*0.0603% = 6,
……。
这10000个人的平均寿命则是
(0.5 * 50 + 1.5 * 7 + 2.5 * 6 + …)/10000。
在上面,0.5、1.5、2.5分别代表0岁、1岁、2岁去世的人去世时的平均年龄。把10000换成任何一个正数都不影响计算结果。
如果出生人口稳定,预期寿命延长会成比例增加总人口。从1949到1980年,中国预期寿命从35岁增长到67岁,由1949年的5.3亿(并非很多人误以为的4亿)推算,1980年的总人口应该有5.3*67/35 = 10.1 亿,但实际只是9.9亿。
也就是说新中国前30年的人口增长基本都可以被预期寿命延长所解释。这点也可从出生人口的变化看出。根据2010年人口普查数据回测,中国在1949年的出生人口是1925万,到1980年则是2030万。不过,1980年出生人口相对于1960年代中期和1970初期的2500-3000万是一个低谷。
在人口预测中,除了使用男女预期寿命外,我还会加上男女婴儿死亡率,最后一共4个指标来概括死亡率表。婴儿死亡率就是0岁死亡率,其数值显著高于其他低龄死亡率。只使用预期寿命来概括整个死亡率表不足以充分反映不同时期的死亡情况。
3) 人口预测
3.1) 人口状态表的更新
在任何年份,我们称按性别和年龄段分列的人口数量为人口状态表。按1岁分段,当年人口状态表包含2*101个数值。不考虑人口迁徙,人口预测主要是根据每年的生育情况和死亡情况,由当年的人口状态表来推定下年的人口状态表。
我们用出生性别比和分年龄生育率表来刻画生育情况,用男女分年龄死亡率表来刻画死亡情况。根据这些数据,我们按下述公式来更新当年的人口状态表而得到下一年的人口状态表:
下年0岁人口 =
当年15岁女性生育率 * 当年15岁女性数
+ 当年16岁女性生育率 * 当年16岁女性数

+ 当年49岁女性生育率 * 当年49岁女性数。
按男女出生性别比,可把上式得出的下年0岁人口分成男女两部分。下年1岁男女人口则分别按下面公式计算:
下年1岁男性人口 =
当年男性0岁人口 * (1 - 当年男性0岁死亡率) ,
下年1岁女性人口 =
当年女性0岁人口 * (1 - 当年女性0岁死亡率) ;
下年2岁的男女人口则分别可以按下面公式计算:
下年2岁男性人口 =
当年男性1岁人口 * (1 - 当年男性1岁死亡率),
下年2岁女性人口 =
当年女性1岁人口 * (1 - 当年女性1岁死亡率);
……。
以此类推,我们可一直计算到下年男女100岁和以上的人口,最后得到下年完整的人口状态表。对未来每年依次重复上述过程,我们就可以推定未来任何一年的人口状态表。
上述过程只用到加减乘除,一点也不高深。如果假设生育率表和死亡率表不变,或只考虑总和生育率改变,做人口预测只需要初中的数学知识。
3.2)构造生育率表和死亡率表
如果生育情况和死亡情况发生变化,未来人口状态会如何演变?
我们用出生性别比、总和生育率、平均生育年龄、男女婴儿死亡率和男女预期寿命共7个指标来概括生育情况和死亡情况,现在的任务是,给定基底年份的生育率表和死亡率表,由未来任何一年的概括性指标的设定值或预测值,来构造该年完整的生育率表和死亡率表,再根据这些表加上出生性别比,由上年的人口状态表来推定该年的人口状态表。
我一般选人口普查年为基底年,因为这些年份的生育率表和死亡率表数据的样本更大,理应更可信。
生育率表包括15-49岁的35个数值,由总和生育率和平均生育年龄两个指标来概括。如果平均生育年龄不变,总和生育率改变,可直接将每个年龄的生育率乘一个系数使得总和生育率等于设定的值。
本文以下内容所需知识超过初中范围。
给定总和生育率,从设定的平均生育年龄来构造生育率表会比较麻烦。我的做法是把不同年龄的生育率归一化,再把与此对应的分布函数处在0-1之间的应变量,通过一个正态分布函数的逆函数映射到实数轴上进行平移,然后把平移后的函数应变量通过之前的正态分布函数反映射到0-1之间。最后对这个变换后的概率分布通过差分计算出不同年龄的归一化生育率,使其平均生育年龄正好等于设定的值。在这个变换中使用标准差为4的正态分布函数能够很好地拟合不同年份的生育率表。
任何性别的死亡率表包括101个死亡率数值,可以看成由0岁死亡率和预期寿命两个指标来概括。给定0岁死亡率,对1-100岁的分年龄死亡率乘上一个系数,再乘上按年龄固定的放大率,得出缩放后的分年龄死亡率,使相应的预期寿命等于设定的值。把放大率在1岁时设为2,然后线性递减到10岁时的1,在10岁以后维持在1能很好拟合不同年份的生育率表。
值得一提的是,在构造生育率表和死亡率表的过程中,具体的拟合方法对最终人口状态表的影响微乎其微。
给定生育率表和死亡率表的构造方法,只要设定未来任何一年的7个概括性指标的数值,我们就可以推定任何一年的人口状态表。因此,所谓人口预测的“预测”部分只是对这7个指标的设定或预测。
现在应该容易找到免费的人口预测程序包,但有基本编程技能的读者如果有兴趣,还是可以自己编写预测程序,这样对细节理解会更深刻,也不容易在人口趋势上被“专家们”误导。
实际上,我自己写的人口预测的核心程序也只用了四五行R语言代码,只是通过设定参数来构造生育率表和死亡率表会麻烦一些,但加上这部分功能的程序也不超过200行代码。
总而言之,人口预测是一个很直白的事情。一个受过良好理工科训练的人,只要头脑清醒,注意力集中,熟悉了几张人口普查表格后,自己就应该可以独立发明我这里描述的所谓预测方法。
3.3)人口动力学方程及其拓展意义
可以把反映人口状态表演化写成下面的离散化矩阵形式的动力学方程。
P[t+1]-P[t] = (B[t] - D[t]) * P[t]
这里P[t]、B[t]和D[t]分别是t年的人口状态表、生育率表和死亡率表。
这看起来像是一维离散化的由物质不灭推导出来的扩散方程,只是扩散机制不太一样。从这个角度来看,人口状态表可被视为一维的年龄空间的密度,而生育率表和死亡率表刻画了扩散机制。
考虑到人口的空间迁徙,上述人口动力学方程可从一维年龄空间扩展到年龄加地理位置的多维空间。这时反映扩散机制的则是生育率、死亡率和迁徙率。
再进一步,如果把扩散方程左边视为复数空间上的波动函数,再把扩散系数拓展到虚数,那么扩散方程看起来就有点像是量子力学里的薛定谔方程。
我提这些只是说那些看起来并无关的现象底层的逻辑可能是相通的。要更好地理解这个世界,除了在现有的框架下学习现有的知识外,还需要回到底层逻辑做自己的思考,而不应该太局限于现有的学科分类体系。不管是对群体还是个体,只做好学生是不够的。

打开网易新闻 查看更多图片