本文继续基于Ben Jones 的新书Avoiding Data Pitfalls,来详细谈下七大数据陷阱。Ben Jones 在他的这本书第二章着重讨论了七大数据陷阱中第一个—认知错误。像以前一样,作者在本章的开始,引用了一句名言,这次是美国小说家Gertrude Stein的 “Everybody gets so much information all day long that they lose their common sense.” ,以此来感叹现在的人们已经为数据海洋所淹没,也暗示着数据细节和关键特征已经很不容易被察觉到了。
认识论是西方哲学的重要部分,具有学科前提的地位,同时也是人类文明的基石之一,其希腊词源有两部分组成,即 episteme (知识) and logos (言辞),字面意为讨论知识,实质上是探讨知识的来源并评价其可靠性。 数据,作为知识和信息的符号,自然也是相关工作的基石。
在某些领域,从业者可以不用了解相关专业基础和原则, 就可以在一定程度上顺利应用。比如,司机,不必了解机车的工程原理或电机的运行机制,就可以正常的开车。然而,数据工作不在此列,其更像是烹饪:只有充分了解火候和味道之间的 变化关系,才能做出美味的食物,否则,就只能靠运气了。
本文先从第一角度,即陷阱1A:数据-现实 差距,开始谈起,相信读者一定会感受到很多似曾相识之处。
陷阱1A:数据-现实差距
从认识论角度,数据所代表的是现实中的事物,可以看作是符号,具有信息载体的作用。由此立即可以追问,数据能否完全或完美反映其所代表的情形?这就是所要讨论的数据与现实的差距。 这当然是一个基础问题,但并不简单,不夸张的说,很多资深从业者都深感这是个很麻烦的问题,而不敢掉以轻心。当拿到一些数据,经过初步分析之后, 应该注意如下问题:数据从哪里来? 谁收集的?这个数据能告诉我们什么?更重要的是,这个数据不能告诉我们什么?
在与数据相关的工作中,由于各种原因,很容易把数据与现实划成等号,因此有必要做一下刻意的区分, 比如在日常生活中应该留意:
在考试成绩单中,不是学生的相应学科的能力,而是学生考卷的分数。 在调查报告中,不是人们对该话题的看法,而是参加调查的人们对该话题的反应记录。 在媒体报道中,某些人还不是罪犯,只是该报道所认定的嫌疑人。 可见人们真的需要在工作语言中尽量细致的刻画每一部分的信息,才能避免掉进认知错误的坑里。Ben Jones 举了四个例子,贯穿全章。我们来一一看下。
本文转载于知乎海数据实验室。