løser
2021-05-03T15:50:40+00:00
这次某知乎万赞的回复确实暴露了很多人统计学上的问题。而除了他的计算年份的问题,还有一个统计上的逻辑问题,或者优先级问题。
即拿抽样数据来矫正普查数据。
老实说这挺离谱的。[s:ac:哭笑]我甚至不知道是用什么脑回路想的这种算法。
但是泥潭也还有很多人对此疑惑不解:为什么不能拿普查的数据减去2020年之前的抽样数据,得到2020年的数据呢?为什么不能用这样的加减以后来矫正普查数据?
emmm我尽可能用一个简单通俗的方式来说明……
但是因为还是涉及了统计学上的东西,所以可能我也不一定能完全说清楚吧……我尽量
打个比方,一个1平方千米的林地,想要统计某种植物的总数量。且设定这是1000米×1000米的样式
在财力人力有限,且不要特别精确的数值的情况下,我们一般怎么统计呢?
用的是样方法。
比如在这个1平方千米的林地,以10米×10米的方式划分,即最后划出100×100总计10000个方格。我们可以在这些方格之中,随机在不同的不连续的彼此之间有一定距离的地方取一些方格作为样方,比如取10个,统计这10个10米×10米的方格中这种植物的数量。
统计之后,乘以1000,最后可以得到一个估算的这个1平方千米上这种植物的总数量。这个就是一个简单的取样统计的流程。
这个得到的数据准确吗?不好说,因为你取样的样方不一定是有代表性的。只是受制于人力财力,你不可能对10000个10米×10米的方格全部一一统计。这个算出来的数据和实际的数据肯定有偏差——除非瞎猫碰上死耗子那种,当然,现实中可以说几乎不存在这种可能性。
当然,你要是不取10个样方而是取100个那准确程度肯定更高啦。取1000个就更高啦。这就是一个统计准确度、精度的问题。
而好啦,现在你们的老板有钱了,不在乎财力,也可以拉出更多人手,于是老板找了好几万个学生来统计,每几个人负责一个方格。这会儿就是普查了。一万个方格,一万个小组,汇总出来的数据,那就算作普查数据。这个普查数据就会很接近于真实数据了——一个个算出来的,比你用样方法加减乘除算的可是精确度高得多。
so~你不能拿一个七拐八拐用公式算出来的抽样数据,去碰瓷一个个点出来的普查数据。那叫逻辑有问题。
也许有人会问:可是普查的时候,也是人统计的,说不定也会少算漏算多算呀?还有压在线上的植物呀?
但你要知道,用抽样的时候,统计样方时候也可能出现这种情况。而抽样还多了一道取样随机性带来的误差。最后,取样数据的说服力也好,准确度也好,是不可能和普查去比较的。或者说,统计样本越多,准确度越高,而普查你也可以看作是取了全部样的抽样。
当然,统计上误差是绝无可能完全避免的。注意,误差不是差错。误差是一个专有概念,可以减少,但一般是绝难完全避免。这里可以搜索下解释,在此不赘述
而具体到这一类统计中,更容易数据比实际低。原因也很简单:比如在植物数量统计中,能统计到的都是能确定存在的,但可能有比如植物刚萌芽还没从土里钻出来,这种植物藏在其他植物丛里没有被发现,等等原因。总的来说,就是理论上统计得到的,只能是存在的,而存在的,未必是统计到的。
这就会造成这种类型的数量统计一般统计数据都会小于实际数据。
试着尽力解释了……不知道说清楚没有
即拿抽样数据来矫正普查数据。
老实说这挺离谱的。[s:ac:哭笑]我甚至不知道是用什么脑回路想的这种算法。
但是泥潭也还有很多人对此疑惑不解:为什么不能拿普查的数据减去2020年之前的抽样数据,得到2020年的数据呢?为什么不能用这样的加减以后来矫正普查数据?
emmm我尽可能用一个简单通俗的方式来说明……
打个比方,一个1平方千米的林地,想要统计某种植物的总数量。且设定这是1000米×1000米的样式
在财力人力有限,且不要特别精确的数值的情况下,我们一般怎么统计呢?
用的是样方法。
比如在这个1平方千米的林地,以10米×10米的方式划分,即最后划出100×100总计10000个方格。我们可以在这些方格之中,随机在不同的不连续的彼此之间有一定距离的地方取一些方格作为样方,比如取10个,统计这10个10米×10米的方格中这种植物的数量。
统计之后,乘以1000,最后可以得到一个估算的这个1平方千米上这种植物的总数量。这个就是一个简单的取样统计的流程。
这个得到的数据准确吗?不好说,因为你取样的样方不一定是有代表性的。只是受制于人力财力,你不可能对10000个10米×10米的方格全部一一统计。这个算出来的数据和实际的数据肯定有偏差——除非瞎猫碰上死耗子那种,当然,现实中可以说几乎不存在这种可能性。
当然,你要是不取10个样方而是取100个那准确程度肯定更高啦。取1000个就更高啦。这就是一个统计准确度、精度的问题。
而好啦,现在你们的老板有钱了,不在乎财力,也可以拉出更多人手,于是老板找了好几万个学生来统计,每几个人负责一个方格。这会儿就是普查了。一万个方格,一万个小组,汇总出来的数据,那就算作普查数据。这个普查数据就会很接近于真实数据了——一个个算出来的,比你用样方法加减乘除算的可是精确度高得多。
so~你不能拿一个七拐八拐用公式算出来的抽样数据,去碰瓷一个个点出来的普查数据。那叫逻辑有问题。
也许有人会问:可是普查的时候,也是人统计的,说不定也会少算漏算多算呀?还有压在线上的植物呀?
但你要知道,用抽样的时候,统计样方时候也可能出现这种情况。而抽样还多了一道取样随机性带来的误差。最后,取样数据的说服力也好,准确度也好,是不可能和普查去比较的。或者说,统计样本越多,准确度越高,而普查你也可以看作是取了全部样的抽样。
当然,统计上误差是绝无可能完全避免的。注意,误差不是差错。误差是一个专有概念,可以减少,但一般是绝难完全避免。这里可以搜索下解释,在此不赘述
而具体到这一类统计中,更容易数据比实际低。原因也很简单:比如在植物数量统计中,能统计到的都是能确定存在的,但可能有比如植物刚萌芽还没从土里钻出来,这种植物藏在其他植物丛里没有被发现,等等原因。总的来说,就是理论上统计得到的,只能是存在的,而存在的,未必是统计到的。
这就会造成这种类型的数量统计一般统计数据都会小于实际数据。