树蛙人的世界

问题导向, 实践操作, 数据挖掘其实很容易!

数据价值思维

由功能是价值转变为数据是价值

由功能是价值转变为数据是价值 大数据真正有意思的是数据变得在线了,这个恰恰是互联网的特点。非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。 例如:大数据的真正价值在于创造,在于填补无数个还未实现过的空白。有人把数据比喻为蕴藏能量的煤矿,煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“...

阿迪达斯的“黄金罗盘”

数据挖掘故事(二)

看着同行大多仍身陷库存泥潭,叶向阳庆幸自己选对了合作伙伴。 他的厦门育泰贸易有限公司与阿迪达斯合作已有13年,旗下拥有100多家阿迪达斯门店。他说,“2008年之后,库存问题确实很严重,但我们合作解决问题,生意再次回到了正轨。” 在最初降价、打折等清库存的“应急措施”结束后,基于外部环境、消费者调研和门店销售数据的收集、分析,成为了将阿迪达斯和叶向阳们引向正轨的“黄金罗盘”。 现在,叶...

数据挖掘思想在科研项目申报中的应用

关于科研项目申报的一点感悟

缘由 近期给我校研究生上《金融数据挖掘》这门课程,在讲课的过程中越来越感觉数据挖掘的过程就是科研活动的过程。因为这两项活动都有一个共同的结果:我永远不知道最终的结果是什么。 在使用python、R软件进行数据挖掘的时候,我永远不知道为出现什么问题。比如同样的程序,我为什么运行不了?我会思考原因,查找问题,解决问题。很多时候,我解决了一个问题,另一个问题又出现了,不断反复。这个过程中有成功...

数据核心思维

从“流程”核心转变为“数据”核心

大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。 Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。例如:IBM将使用以数据为中心的设计,目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下,云计算找到了破茧重生的机会,在存储和计算上都体现了数据为...

农夫山泉用大数据卖矿泉水

数据挖掘故事(一)

这里是上海城乡结合部九亭镇新华都超市的一个角落,农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点,拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……这样的点每个业务员一天要跑15个,按照规定,下班之前150张照片就被传回了杭州总部。每个业务员,每天会产生的数据量在10M,这似乎并不是个大数字。 但农夫山泉全国有10000个业务员,这样每天的数据就是10...

分类之KNN算法简介

KNN的概念及几种算法

1.概述 KNN算法是一种简单实用的分类算法,其通过测量不同样本之间的距离,然后根据距离选择最近的K个邻居来进行分类。算法核心思想是如果一个样本在特征空间中的K个最临近的样本中的大多数属于某一个类别,则该样本也属于这个类别。整个分类过程包括三步,一是算距离来判断哪些是邻居;二是求近邻,即选择K值;三是做决策,进行分类。KNN算法是易于理解和实现的分类技术,且在许多情况下表现良好。KNN算法特...

分类之决策树算法简介

决策树的概念及几种算法

1.逻辑回归的概念 逻辑回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。逻辑回归从本质来说属于二分类问题。 二分类问题是指预测的y值只有两个取值(0或1),二分类问题可以扩展到多分类问题。例如:我们要做一个垃圾邮件过滤系统,x是邮件的特征,预测的y值就是邮件的类别,是垃圾邮件还是正常邮件。对于类别我们通常称为正类(positive...

分类之逻辑回归算法简介

逻辑回归的概念、思想及优缺点

1.逻辑回归的概念 逻辑回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。逻辑回归从本质来说属于二分类问题。 二分类问题是指预测的y值只有两个取值(0或1),二分类问题可以扩展到多分类问题。例如:我们要做一个垃圾邮件过滤系统,x是邮件的特征,预测的y值就是邮件的类别,是垃圾邮件还是正常邮件。对于类别我们通常称为正类(positive...

数据挖掘分类算法简介

分类的本质、问题及算法

1.本质 给定一个对象X,将其划分到预定义好的某一个类别Yi中的算法 2.分类算法用来解决什么问题 人群分类,新闻分类,query分类,商品分类,网页分类,垃圾邮件过滤,网页排序 3.有哪些分类算法 分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 解决分类...

AUC值

AUC值的定义、物理意义及计算方法

AUC值 AUC值的定义 AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。 AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。 AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预...