[水一帖]试着用通俗语言解释下人口普查某知乎万赞的错误及统计上的问题

løser-avatar

løser

2021-05-03T15:50:40+00:00

这次某知乎万赞的回复确实暴露了很多人统计学上的问题。而除了他的计算年份的问题,还有一个统计上的逻辑问题,或者优先级问题。
即拿抽样数据来矫正普查数据。
老实说这挺离谱的。[s:ac:哭笑]我甚至不知道是用什么脑回路想的这种算法。

但是泥潭也还有很多人对此疑惑不解:为什么不能拿普查的数据减去2020年之前的抽样数据,得到2020年的数据呢?为什么不能用这样的加减以后来矫正普查数据?

emmm我尽可能用一个简单通俗的方式来说明……
但是因为还是涉及了统计学上的东西,所以可能我也不一定能完全说清楚吧……我尽量

打个比方,一个1平方千米的林地,想要统计某种植物的总数量。且设定这是1000米×1000米的样式

在财力人力有限,且不要特别精确的数值的情况下,我们一般怎么统计呢?
用的是样方法。
比如在这个1平方千米的林地,以10米×10米的方式划分,即最后划出100×100总计10000个方格。我们可以在这些方格之中,随机在不同的不连续的彼此之间有一定距离的地方取一些方格作为样方,比如取10个,统计这10个10米×10米的方格中这种植物的数量。
统计之后,乘以1000,最后可以得到一个估算的这个1平方千米上这种植物的总数量。这个就是一个简单的取样统计的流程。
这个得到的数据准确吗?不好说,因为你取样的样方不一定是有代表性的。只是受制于人力财力,你不可能对10000个10米×10米的方格全部一一统计。这个算出来的数据和实际的数据肯定有偏差——除非瞎猫碰上死耗子那种,当然,现实中可以说几乎不存在这种可能性。
当然,你要是不取10个样方而是取100个那准确程度肯定更高啦。取1000个就更高啦。这就是一个统计准确度、精度的问题。


而好啦,现在你们的老板有钱了,不在乎财力,也可以拉出更多人手,于是老板找了好几万个学生来统计,每几个人负责一个方格。这会儿就是普查了。一万个方格,一万个小组,汇总出来的数据,那就算作普查数据。这个普查数据就会很接近于真实数据了——一个个算出来的,比你用样方法加减乘除算的可是精确度高得多。

so~你不能拿一个七拐八拐用公式算出来的抽样数据,去碰瓷一个个点出来的普查数据。那叫逻辑有问题。

也许有人会问:可是普查的时候,也是人统计的,说不定也会少算漏算多算呀?还有压在线上的植物呀?
但你要知道,用抽样的时候,统计样方时候也可能出现这种情况。而抽样还多了一道取样随机性带来的误差。最后,取样数据的说服力也好,准确度也好,是不可能和普查去比较的。或者说,统计样本越多,准确度越高,而普查你也可以看作是取了全部样的抽样。

当然,统计上误差是绝无可能完全避免的。注意,误差不是差错。误差是一个专有概念,可以减少,但一般是绝难完全避免。这里可以搜索下解释,在此不赘述
而具体到这一类统计中,更容易数据比实际低。原因也很简单:比如在植物数量统计中,能统计到的都是能确定存在的,但可能有比如植物刚萌芽还没从土里钻出来,这种植物藏在其他植物丛里没有被发现,等等原因。总的来说,就是理论上统计得到的,只能是存在的,而存在的,未必是统计到的。
这就会造成这种类型的数量统计一般统计数据都会小于实际数据。


试着尽力解释了……不知道说清楚没有
Potato90-avatar

Potato90

[quote][tid=26726129]Topic[/tid] Post by [uid=62919104]楠楠筱夜[/uid] (2021-05-12 23:53):

这次某知乎万赞的回复确实暴露了很多人统计学上的问题。而除了他的计算年份的问题,还有一个统计上的逻辑问题,或者优先级问题。
即拿抽样数据来矫正普查数据。
老实说这挺离谱的。[s:ac:哭笑]我甚至不知道是用什么脑回路想的这种算法。

但是泥潭也还有很多人对此疑惑不解:为什么不能拿普查的数据减去2020年之前的抽样数据,得到2020年的数据呢?为什么不能用这样的加减以后来矫正普查数据?

emmm我尽可能用一个简单通俗的方式来说明……
[del]但是因为还是涉及了统计学上的东西,所以可能我也不一定能[/quote]可是,为啥每年出生人口是抽样数据?不是有身份证号吗?
Dr. Corpse-avatar

Dr. Corpse

[quote][pid=515483931,26726129,1]Reply[/pid] Post by [uid=60199514]最后的绝地武士[/uid] (2021-05-13 00:02):

可是,为啥每年出生人口是抽样数据?不是有身份证号吗?[/quote]医院分娩有出生证明或者上户口的时候才会有身份证号码

不能用城市思维来考虑整个中国的情况

每次人口普查都是清理既往黑户的重要途径

其实死亡比出生数据更难准确获得

能监控到的明确医疗机构死亡是少数,居家死亡是大多数
RadHabbit-avatar

RadHabbit

感觉之前五普的数据还是存在问题的
[img]https://img.nga.178.com/attachments/mon_202105/13/-7Q16x-ka21Z12T3cShs-34h.jpg.medium.jpg[/img]
Syrange-avatar

Syrange

所以本来通过户籍/医院就能搞明白的数据,愣是养活了统计局一帮人
你们说的都对.jpg
𝔊𝔯𝔲𝔫𝔤𝔢𝔖𝔵𝔫𝔫-avatar

𝔊𝔯𝔲𝔫𝔤𝔢𝔖𝔵𝔫𝔫

普查是对的,以前抽样调查的出的数据误差太大了,等统计修正吧。抽查少了那么多出生人口确实太离谱了
Photonphantom14-avatar

Photonphantom14

[quote][pid=515488279,26726129,1]Reply[/pid] Post by [uid=63028798]神鬼神[/uid] (2021-05-13 00:25):

所以本来通过户籍/医院就能搞明白的数据,愣是养活了统计局一帮人[/quote]其实每年医院统计活胎和公安的数据也对不上的。经常差个百万左右。[s:ac:哭笑]
sal-avatar

sal

老哥学植物还是生态的?样方调查都出来了
Merch-avatar

Merch

[quote][pid=515488279,26726129,1]Reply[/pid] Post by [uid=63028798]神鬼神[/uid] (2021-05-13 00:25):
所以本来通过户籍/医院就能搞明白的数据,愣是养活了统计局一帮人[/quote]然而户籍和医院并不能完全明白所有数据,随便举个例吧,死了多年仍然冒领养老金的新闻,时不时就有,还有黑户问题,读书年纪到了给儿童上户口(我本人就是在外地出生,二胎超生,罚了钱,然后在老家也没有户口,直到八岁才落户上学)
Diaulus-avatar

Diaulus

[quote][pid=515488279,26726129,1]Reply[/pid] Post by [uid=63028798]神鬼神[/uid] (2021-05-13 00:25):

所以本来通过户籍/医院就能搞明白的数据,愣是养活了统计局一帮人[/quote]厕所生子的新闻也有不少了
只要不去医院
不上户口
医院和户籍怎么知道有这么个人
之前还有新闻男的带了3年小孩要上学了没户口
做亲子鉴定才发现不是亲生的
也是一个黑户
[s:a2:doge]
BobThyBuilda-avatar

BobThyBuilda

[quote][pid=515488279,26726129,1]Reply[/pid] Post by [uid=63028798]神鬼神[/uid] (2021-05-13 00:25):

所以本来通过户籍/医院就能搞明白的数据,愣是养活了统计局一帮人[/quote]你以为所有人都去医院生孩子?
不要把城市里的思维代入到全中国,尤其是2010年之前的全中国。
Prof. N1gh7-avatar

Prof. N1gh7

[quote][pid=515488279,26726129,1]Reply[/pid] Post by [uid=63028798]神鬼神[/uid] (2021-05-13 00:25):

所以本来通过户籍/医院就能搞明白的数据,愣是养活了统计局一帮人
你们说的都对.jpg[/quote]那么出库入库账目都清晰会计就不用盘库存了?
᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼-avatar

᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼᲼

[quote][pid=515488279,26726129,1]Reply[/pid] Post by [uid=63028798]神鬼神[/uid] (2021-05-13 00:25):

所以本来通过户籍/医院就能搞明白的数据,愣是养活了统计局一帮人
你们说的都对.jpg[/quote]楼主都告诉你这不是1+1=2的问题了,你还不懂。
Neko Nightmare-avatar

Neko Nightmare

看来我是白领工资了[s:ac:汗]
Lorenzo-avatar

Lorenzo

总有些人拿自己简单的头脑去怀疑专业人士。
ImNotGay-avatar

ImNotGay

[quote][pid=515488279,26726129,1]Reply[/pid] Post by [uid=63028798]神鬼神[/uid] (2021-05-13 00:25):

所以本来通过户籍/医院就能搞明白的数据,愣是养活了统计局一帮人
你们说的都对.jpg[/quote]你这发言脱离群众脱离基层
有那种啥事不会只会敲键盘的味了~
Christopherr-avatar

Christopherr

[quote][pid=515483931,26726129,1]Reply[/pid] Post by [uid=60199514]最后的绝地武士[/uid] (2021-05-13 00:02):

可是,为啥每年出生人口是抽样数据?不是有身份证号吗?[/quote]小城市包括农村都是出生一段时间才去登记的
リンs-avatar

リンs

[quote][pid=515489872,26726129,1]Reply[/pid] Post by [uid=8784010]ID喂狗了[/uid] (2021-05-13 00:34):

厕所生子的新闻也有不少了
只要不去医院
不上户口
医院和户籍怎么知道有这么个人
之前还有新闻男的带了3年小孩要上学了没户口
做亲子鉴定才发现不是亲生的
也是一个黑户
[s:a2:doge][/quote]那这种人口普查就能出来吗
Munch-avatar

Munch

抽样貌似是前千三的比例吧。就和楼主说的一样,假如我要画条曲线,我取3个点拟合和我取1000个点拟合,如果曲线变化的规律性很差,两条线不同点的值可能差到天际。这时候拿前一条线某点值因为说后面那条线该点数据值对不上所以后面是错的是纯属没脑子。。。
每年抽样能告诉的是变化的趋势,比如结婚率下降啊,生育率下降啊这些,因为统计方法是一样的。