如何处理数据
如果我们将数据工作全程比喻成建造房屋,这些数据准备步骤有点像打地基,安装管道和电器之类的工作。 当一切都顺利完成,可能都感觉不到这些事情的存在;但如果这些事情没做好,你肯定不想住在这种房子里, 这是因为住在这里,即使对这些部分再进行修缮,也只会变得更加混乱和困难。
显然,数据整理步骤(一般包括数据清洗,组织和校对)是后续一系列工作的前提, 而且通常会占用大量的项目工作时间,一般行业认可的平均数字是,50%-80%.
讲真,在这些重要,耗时,并繁琐的步骤中,识别并学习如何避免的陷阱,对于数据工作这一步骤的成功乃至整个项目的顺利完成是非常关键的。
让我们先来看下数据整理的基本原则:
1.几乎每个数据集都是脏的,需要在某些方便进行情理,如规格或形式等
2.转换过程,如重新格式化,混合,加入,等等,是错误多发区
3.存在一些技巧,可以帮助我们规避上述两种错误
如果你同意这些原则,就应该认同在为数据分析做准备的前期工作中存在很多陷阱,但是这不意味着我们不能应对。 尽管这些数据整理的问题可能令人烦躁,处理的过程也可能很难看,但把这些东西整理一下还是很清爽的, 就像你的衣柜最终被整理好时的感觉一样。一定程度上,这也算是某种解脱吧。
本文转载于知乎海数据实验室。