统计学中,最基本和最常见的分支是所谓的描述性统计学(descriptive statistics ):把一组数据归纳为能描述或用于总结数据集本身的若干指标。
比如:
一家公司所有员工的平均收入 一个班级的高考分数范围 股票投资组合的回报误差 一个团队中球员的平均身高
有人会问,描述统计不过就是总结一下数据,这么简单的事情也会涉及陷阱吗?
事实上,当然有。
在前面的系列中,即使是简单加法都会涉及陷阱。
而描述统计这里会有稍微复杂一点的均值或标准差的统计量,在结构上已经扩大了犯错的可能性空间。
在描述统计中,会讨论到数据集的集中趋势,这里涉及均值,中值等统计量。
最常见的错误倒还不是在计算这些指标时发生的,而且这些公式也真的不难。
而集中趋势指标带来的真正困难在于:当向人们展示这些指标时候,如均值,总会有人认为—既然均值是这样,那应该这个数据集里面的数值都这样吧。
当然,这是一种非常懒惰的想法,而懒惰就容易掉到坑里,这里举一个体育界的例子。
本文转载于知乎海数据实验室。