听取树蛙一篇

数据陷阱：认知错误2

过多的人为和主观数据

Posted by 刘政永Dmer on July 8, 2020

引子

上一篇文章详细讨论了下数据与现实的差距，实例涉及（1）由测量系统精密程度的变化而导致的差距便随时间上的推移(地震学),（2）由未知系统故障导致的异常值(自行车计数器),（3）人为计数与缺失的数据(陨石), （4）在后期不断纠正前期的数据(埃博拉死亡),以及（5）未阐明的和不清楚标准的不确定数据(汉克亚伦的本垒打)。

记得听一位统计学老师谈过，凡是做数据的人，出于种种原因，很少有不编数和不猜数的，而且在宏观上非常难以评价这种行为的是非对错，下面就来具体剖析一下这种做法的成因，以及如何恰当的看待这类问题。

陷阱1B:人工和主观数据过多

本文引入另一种人为的偏差或者误差：当记录我们自己测量的数值，在手动输入时，总不免会有主观上的猜测，估计，甚至捏造的情况。当然退一步说，人们靠自身也不能完全精确地记录数据。

本文转载于知乎海数据实验室。