给某些网友上点统计课

秋实


[新观察]·文库版·大饥荒档案 www.chinafamine.net 转载时请注明作(译)者及出处

  俺在“谈谈中国人口数据的可靠性”一文中,说了这么一段话:

  “有人说,我国人口统计的误差是10%,三千万人误差一下就出来了,
跟零没有差别。于是,所谓非正常死亡两三千万的说法,统计上没什么意义。
他们显然没整明白整体(比如若干个随机变量之和)的误差,与其构成部分
(比如其中单个变量)的误差之间关系。举个简单反例:五六十年代之交,
我国少数民族的总人数也不过三千多万,难道也是误差一下出来的,跟零没
什么区别吗?建议提出这种说法的朋友,自修一下概率统计入门知识。”

  此文贴出之后,果然就有某些缺乏“概率统计入门知识”的人士,不知
是看不懂这段话的意思呢,还是别的什么原因,总之是不懂装懂,大发无知
可笑的议论。看来有必要再给他们上点统计课。

  统计死亡人数,大致有两种办法,加法和乘法。

  加法,也就是点人头。调查人员直接跑到每个人家里问,你家去年有没
有死人?死了几个?然后把点出的死亡人数一个一个加起来。这是普查和抽
样调查的方法。另外,户口登记死亡人数,也是点人头的办法:死了人,城
镇居民须在埋葬之前申报登记,农村居民须在死亡后一个月内申报登记。到
了每个年度终了,基层户口机关须填报死亡人口统计表,逐级汇总上报,最
后由公安部汇总全国数据,转报国家统计局。

  这是统计死亡人数和死亡率的基本方法,当然也是其他方法的基础。它
的统计误差,显然不等于总人口的误差。点人头点出的人数,那怕再少,也
不能说是总人口数误差一下出来的。此道理不言自明。

  有人问:“我国少数民族的总人数的三千多万是点人头得出的结论还是
象丁抒一样用全国普查人口总数乘个什么率再加减一下得来? ”这里说的就
不是加法,而是乘法了。

  所谓乘法,就是由死亡率乘以总人数得到死亡人数。此处,死亡率的统
计误差,通常都独立于总人口数的统计误差。比如,当死亡率是通过独立的
抽样调查而来时,就是如此。下面举一个例子说明,为什么用这种办法算出
的死亡人数,其误差也不一定在总人数的误差之内。

  假设总人口十亿,死亡率千分之十。再设这两个数都是有误差的。总人
口统计的标准误差,相当于人口数的10%,也就是一亿;死亡率统计的标准
误差,往高里算,设它也相当于死亡率水平的10%好了。如此,死亡率与总
人口之乘积的误差率,该是多少呢?因为死亡率是独立估算的,与总人口的
误差不相关,二者乘积的误差率,便近似等于10%的平方加10%的平方再开根
号,也就是14%。

  换言之,十亿乘以千分之十等于一千万死亡人口,它正负一个标准误差
的范围,仅仅是从860万到1140万。尽管总人口误差率高达10%,一个标准误
差就达到一亿人,我们却不能说,用死亡率乘以总人数估算出的一千万死亡
人口,就是误差一下出来的。

  其实,五十年代限于客观条件,某些边远地区和少数民族人口,也有用
这办法计算的。在很多情况下,即使其人数小于总人口的误差,却不能说他
们就是误差一下出来的。这就是俺前面那段引文的意思。

  唉,有些人,就为了否认几千万人非正常死亡,闹到连统计学的基本常
识都不认了。

秋实
2000-05-06
(送交者: 秋实 于 May 07, 2000 09:42:18:[新观察/xgc2000.com])


再讲讲减法问题 回答: 请秋老师秋实看看丁抒的算法再开牙. 由 观众 于 May 08, 2000 02:08:44:
  以上讲的是统计死亡人口的办法。当统计的死亡人口由于种种原因而不 能使用,或需要有独立来源的数据以验证其可靠性时,人们往往采用第三种 办法来估算死亡人数,此即减法,也就是用两个年份的人口数相减,来计算 死亡人数。   “观众”先生说,丁抒的三千多万是用减法算出来的,“问题是五九年 底的人口数用的是统计局公布的人口数,而一九六○年底的人口数由64年人 口普查计算得来,二者是独立变量,因此二者相减的误差应是二者误差的平 方和开根。如果总人口数的误差在5%,仅60年非正常死亡人数的误差至少6 千万,再加上另外2年,说丁抒算法的误差有上亿是不为过的。”   此议大错。丁抒计算的1960年人口,实际上是1964年普查后的人口数, 乘上1960年人口与1964年人口比率(根据人口增长率得来)。后面这个比率, 与统计局1959年人口数都是同一个来源,即都是根据同一套户口底册推算而 来。这套户籍人口数据, 主要的误差来源, 就是户口底册上多报或少报了 人。倘若没有彻底的户口整顿,上一年多报或少报的人口,通常不会自行消 失,下一年还在。这样,相继两年户籍人口数的统计误差,就是高度正相关 的----1959年多报的人口,同样会出现在1960年的统计中,从而抬高在1960 年人口与1964年人口的比率。   因此,两个人口数相减的方差,应当等于二者方差之和再减去二倍协方 差。假如总人口的误差如观众先生所言,为总人口的5%,而相继两年户籍人 口数的相关系数达到0.9, 则二者相减的均方差,约相当于总人口的2.2%, 大约为1500万人。这个数,远远小于丁抒计算的死亡人数。   事实上,根据人口普查结果验证,我国户籍总人口的误差,不过2%。如 此则上述误差率还会更低。以相关系数0.9算,误差会降低到600万左右。   再提示一下,观众和俺在这里计算和谈论的,都是无偏向的随机统计误 差。但我国的户籍死亡统计,当年存在着大规模低报死亡的系统误差。丁抒 用1964年普查后的人口数推算1960年,旨在消除这种大规模的系统偏差,取 得对1960年人口的无偏估计。这并没有消除无偏向的随机统计误差,也没有 消除相继两年人口数的正相关。当然我们也可以质疑,他的方法是否真的得 到无偏估计(俺就对他的方法持保留态度)。但象观众那样,不去指责他的 人口估计量是有偏的,却用错误的办法,计算其随机误差范围,得出上亿的 荒谬数字,显然是没搞通基本概念的缘故。 秋实 2000-05-08 送交者: 秋实 于 May 08, 2000 04:14:36:[新观察/xgc2000.com]

回页首  


[新观察]·文库版·大饥荒档案 www.chinafamine.net 转载时请注明作(译)者及出处

相关文章:
  • 谈谈中国人口数据的可靠性
  • 丁抒:从“大跃进”到大饥荒