许多著名运动员都曾坦言:我所做的不过是令自己精力充沛,技巧娴熟。同样的,虽然之前谈论了不少与数据科学相关的理论和思想, 但实际的数据工作也不外乎基础设施的性能优化,以及到各种到位的技术性操作,如模型,算法等工具和方法的运用得当。
上一系列中,我们从基本认知过程和认识论角度讨论了数据与现实的反映关系,涉及一些思辨的元素,略微有些枯燥。 从这一篇,开始进入数据处理的技术层面,这也是一般数据工作中被最先接触和了解的;甚至在一些小白眼里, 数据处理技术就是数据工作的全部,显然这是一种认知错误了。
相信大家都读过一些数据处理的书了, 有人称这个过程为倒腾数据,有的称为咀嚼数据,或者数据预处理,数据准备,等等,总之都是表明是在整理或清理数据—把数据整理成需要的格式以便于进一步分析。 但不得不说,这个过程实在不总是那么优雅,充满了各种槽点,我们来一一看下。
本文转载于知乎海数据实验室。