引子
上一篇文章详细讨论了下数据与现实的差距,实例涉及(1)由测量系统精密程度的变化而导致的差距便随时间上的推移(地震学),(2)由未知系统故障导致的异常值(自行车计数器),(3) 人为计数与缺失的数据(陨石), (4)在后期不断纠正前期的数据(埃博拉死亡),以及(5)未阐明的和不清楚标准的不确定数据(汉克亚伦的本垒打)。
记得听一位统计学老师谈过,凡是做数据的人,出于种种原因,很少有不编数和不猜数的,而且在宏观上非常难以评价这种行为的是非对错,下面就来具体剖析一下这种做法的成因,以及如何恰当的看待这类问题。
陷阱1B:人工和主观数据过多
本文引入另一种人为的偏差或者误差:当记录我们自己测量的数值,在手动输入时,总不免会有主观上的猜测,估计,甚至捏造的情况。当然退一步说,人们靠自身也不能完全精确地记录数据。
本文转载于知乎海数据实验室。