树蛙人的世界

问题导向, 实践操作, 数据挖掘其实很容易!

数据陷阱:油腻的统计学4

令人崩溃的描述

统计学中,最基本和最常见的分支是所谓的描述性统计学(descriptive statistics ):把一组数据归纳为能描述或用于总结数据集本身的若干指标。 比如: 一家公司所有员工的平均收入 一个班级的高考分数范围 股票投资组合的回报误差 一个团队中球员的平均身高 有人会问,描述统计不过就是总结一下数据,这么简单的事情也会涉及陷阱吗? 事实上,当然有。 在前面的系列中,即使是简单...

数据陷阱:油腻的统计学3

千夫所指:为统计学正名

为统计学正名 但尽管统计学或统计数字受到了如此普遍的谴责,但统计学科这个领域本身还是为每个数据工作者提供了解决问题的重要或必要的方法和工具,始终在人类文明进程中发挥着作用。 在某种程度上,如果重新考虑一下上面所引用的韦伯字典的定义,就会发现,人们在处理数据时所做的一切,在实际上都只是统计数据, 不管想给它起什么更性感的名字,如数据分析、分析学、数据科学——如果按照字面上的定义来解释的话...

数据陷阱:油腻的统计学2

千夫所指:四大罪证

四大罪证 统计怎么就那么难学 01第一个原因,太难了。 对于不少工作,学习和或生活经常接触统计学的人而言,经常会抱怨:即使是描述统计学和推断统计学(descriptive and inferential statistics)中最基本的概念,也很难正确的理解,总觉得什么地方不对,更别提给人解释了。 许多糊里糊涂的大学新生都承认,在准备每次统计学课程的考试时,着实艰辛。 更麻烦的是,...

数据陷阱:油腻的统计学1

千夫所指:因“搞数”而生

时下已经是所谓的数字化和大数据时代很多年了,统计学的地位愈发显赫,用途愈发深广,而对之的批评或负面情绪也日益高涨。 对于如此现象,用一句电视剧里常说的话—此事牵涉甚广,那么本文就来理上一理。 美国著名作家马克吐温曾言:Facts are stubborn things, but statistics are pliable. 说白了,就是如果事实摆在面前,那也没什么可说的,但如果是统计...

数据陷阱:技术过失2.5

陷阱:荒谬的百分比

陷阱:荒谬的百分比 这个所谓的新话题是为了说明当我们分析数据时,数学上的错误会以另一种方式把我们引入歧途。 下面这个例子处理的是百分比,也颇有其棘手之处。 每年,世界银行都会编制并发布一套数据,估计每个国家居住在城市环境中的人口比例。 在此先感恩一下世界银行的数据团队。 世界银行网站上显示的时间轴显示,全球城市人口占总人口的比例从1960年的33.6%上升到2016年的54.3%。 在...

数据陷阱:技术过失2.4

陷阱:麻烦的总计

陷阱:麻烦的总计 Ben Jones, 也就是Aoiding Data Pitfalls的作者,在这部书中坦言: 他与这个陷阱有一种特殊的因缘,因为有一次他实际上是在警告人们如何避免这个陷阱的时候,掉进里面的。 此后,他被迫学会了自嘲。就在前几年,他在南加州大学(University of Southern California)为专攻健康数据的记者们举办了一个培训课程,并向其提到正在写这...

数据陷阱:技术过失2.3

陷阱:不一致的单位

陷阱:不一致的单位 这也是一常见陷阱,与我们测量事物的方式有关。 当我们对数据中的不同度量进行数学运算时,需要确保知道所涉及的度量单位都是什么。 如果不小心,就可能碰到单位不一致的情况,然后得到非常错位的结果。 在前面,已经提到了火星气候轨道器解体这个的例子。当时的情况是,轨道飞行器飞得离火星表面太近了,承受压力过大,即将被烧成灰烬。 造成这一错误轨迹的原因是,洛克希德·马丁公司在提供的...

数据陷阱:技术过失2.2

陷阱:失落的数据---缺失值

陷阱:失落的数据—缺失值 上一部分谈的是对数据集的外部边界没有清晰认识在汇总和组间比较时出现的问题, 这里把目光转向数据内部,谈一下缺失值。与以往不同的是,我们看一个相对文艺一点的例子。 这个例子与Avoiding data pitfalls的作者Ben Jones的个人兴趣有很大关系。Ben很喜欢美国文学家埃德加·爱伦·坡(Edgar Allan Poe)的作品,想分析一下其全集,目的...

数据陷阱:技术过失2.1

陷阱:汇总失衡

陷阱:汇总失衡 当对具有相同属性的数据记录进行分组时,就会涉及数据聚合或汇总。在实际生活中,有各种各样的这种分类。有时数据分组会形成层次结构。以下是一些例子: 1.时间: 小时、日、周、月、年 2.地理: 城市、县、州、国家 3.组织: 员工、团队、部门、公司 4.运动: 团队、分区、会议、联盟 5.产品: SKU,产品类型,品类,品牌 无论我们是在报告不同级别的销售状况,还是为商业活...

数据陷阱:技术过失2

数学失误

引言 十九世纪英国的著名思想家John Henry Newman曾言“Calculation never made a hero”,calculation本义是计算,这里的意思应该是从慎重考虑、仔细思考这个角度出发,指考虑太多容易错失良机。所以这一句话一般译为“举棋不定永远成不了英雄”。可见,计算还是必要的,只不过不应该过度,正如孔夫子所说:过犹不及。 社会发展,之所以要数字化,其中一个...