树蛙人的世界

问题导向, 实践操作, 数据挖掘其实很容易!

数据陷阱:认知错误4.3

如何规避天鹅陷阱和上帝陷阱

我们如何避免陷入这两种认知陷阱? 让我们先来大致还原一下陷入麻烦的情形,这个过程和思维通常是这样的: 面对基本问题➔2.开展数据分析➔3.创建单称命题➔{知道归纳飞跃}➔4.对思维推广后大的全称命题产生信念 可以想想前文中的例子,在此让我们回顾一下在弗里蒙特桥自行车案例中,某些不太认真的人是如何体现上述过程的: 1.我听说弗里蒙特桥上有个自行车计数器。这太酷了,我想知道我能从我...

数据陷阱:认知错误4.2

陷阱1E:可证伪性与上帝陷阱

陷阱1E:可证伪性与上帝陷阱 上帝存在”这句话不属于科学或数据分析的范畴:无论我们做什么,我们都不能证明它是错的。 她/他/它可能只是躲着我们,或者只是我们的感官无法察觉。这就是为什么当人们用科学或数据试图证明上帝不存在的时候, 实在令人感到困扰,这真是一个毫无意义的练习,如上图中这种宣传,因为这个假设一开始就不能被证伪;这是一个基本的存在主义陈述,请仔细思考。 如果你不信,千万不用从论证...

数据陷阱:认知错误4.1

陷阱1D:黑天鹅陷阱

时下流行的想法:人们倾向于把将数据寄托为一种检验生活或世界的真相的工具,以发挥其最大的作用。不难理解这个想法的缘由。比如, 我想知道一个月有多少辆自行车穿过弗里蒙特桥, 所以我从政府相关部门的网站上下载了数据,进行了一个非常简单的计算,得到了答案。 那么问题来了:这就是全部的答案么?! 每当面对这种看似并非无用的信息,不得不考虑:确定性答案真的是从数据中得到的最佳之物么?明智的说,并非如此...

数据陷阱:认知错误4

黑天鹅与上帝

引言 本篇将介绍认知错误里面的最后两个陷阱:黑天鹅陷阱和上帝陷阱,这两部分内容在逻辑学的谬误理论以及科学技术哲学里面讨论得很多,但其实在日常生活中也很常见。 比如:某一个小孩子,在动物园看过几次白天鹅,能阅读的书里看的天鹅也都是白色的,以这样的所见所闻,认为世界上的天鹅都是白色的;而实际上澳大利亚是有黑色天鹅的;那么这个小孩子的这种想法就意味着掉进了黑天鹅陷阱。 再比如,有人说孙悟空是...

数据陷阱:技术过失1.2

无尽的拼法错误

不过,我们还是多谈谈“Camray”吧。这个错误的拼写为我们提供了一个窗口,让我们了解到这个数据集的另一个糟糕的方面,即Vehicle Make字段。我们看下这个字段,因为在理论上,它的取值范围应该比车辆模型字段更有限。大多数汽车(如本田-Honda)有许多车型(思域-Civic、雅阁- Accord等)。 结果显示,在我们的数据集中,Vehicle Make字段中实际上有899个不同的条...

数据陷阱:技术过失1.1

脏数据陷阱

提起脏数据,不禁要问,到底怎么个“脏”法呢。实言告汝,真的是脏得千奇百怪,如拼写错误的文本值、日期格式问题、 不匹配的单位、缺失值、空值、不兼容的地理空间坐标格式,等等,不胜枚举。 正如ggplot2(R语言中的数据可视化包)的作者Hadley Wickham在他的R for Data Science一书中所阐述的—他修改了列夫·托尔斯泰( Leo Tolstoy)的一句名言:“整洁的数据集...

数据陷阱:技术过失1

如何处理数据

如何处理数据 如果我们将数据工作全程比喻成建造房屋,这些数据准备步骤有点像打地基,安装管道和电器之类的工作。 当一切都顺利完成,可能都感觉不到这些事情的存在;但如果这些事情没做好,你肯定不想住在这种房子里, 这是因为住在这里,即使对这些部分再进行修缮,也只会变得更加混乱和困难。 显然,数据整理步骤(一般包括数据清洗,组织和校对)是后续一系列工作的前提, 而且通常会占用大量的项目工作时间,...

数据陷阱:技术过失

引言

许多著名运动员都曾坦言:我所做的不过是令自己精力充沛,技巧娴熟。同样的,虽然之前谈论了不少与数据科学相关的理论和思想, 但实际的数据工作也不外乎基础设施的性能优化,以及到各种到位的技术性操作,如模型,算法等工具和方法的运用得当。 上一系列中,我们从基本认知过程和认识论角度讨论了数据与现实的反映关系,涉及一些思辨的元素,略微有些枯燥。 从这一篇,开始进入数据处理的技术层面,这也是一般数据工作...

数据陷阱:认知错误3.2

如何避免混淆数据和现实的边际?

从上述案例中可以看到,存在于数据本身的某些状况,令我们觉察到一些潜在的数据与现实的差距问题,而利用可视化的方法则有助于形象地找出问题缘由。 从之前的例子,可以见证这种方法指导我们找到了哪些或是机械故障,或是人为造成的数据问题。在实际数据工作中,涉及采集,处理,分析等过程,数据可视化绝对是最好的问题检测和诊断的方法之一。进一步地,我们对数据工作的内容,如设备的使用、遵循的协议、涉及的人员、采取...

数据陷阱:认知错误3.1

评价不一致

稍微离题了一小下之后。现在还是回到刚才提及的香蕉。2018年,Ben Jones又做了一个他自认为不太科学的小调查:让他的粉丝根据香蕉的成熟度给10张香蕉照片打分。 每张照片被受访者分为未成熟、几乎成熟、成熟、非常成熟和过熟。 这五种不同的成熟度类别都没有经过全国香蕉评级协会或其他类似机构的审查。所以称之为不太科学的小调查。 如上图所示,每张照片展示一次,每个被调查者都以同样的顺序看到...