树蛙人的世界

问题导向, 实践操作, 数据挖掘其实很容易!

ROC曲线

ROC曲线的动机、定义及图形化表示

ROC曲线 ROC的动机 对于0,1两类分类问题,一些分类器得到的结果往往不是0,1这样的标签,如神经网络得到诸如0.5,0.8这样的分类结果。这时,我们人为取一个阈值,比如0.4,那么小于0.4的归为0类,大于等于0.4的归为1类,可以得到一个分类结果。同样,这个阈值我们可以取0.1或0.2等等。取不同的阈值,最后得到的分类情况也就不同。如下面这幅图: 蓝色表示原始为负类分类得到的统计图...

ROC曲线与AUC值概述

数据挖掘之分类模型好坏的标准判断

AUC AUC(Area Under roc Curve)是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多,例如:大约10年前在machine learning文献中一统天下的标准:分类精度;在信息检索(IR)领域中常用的recall和precision,等等。其实,度量反应了人们对”好”的分类结果的追求,同一时期的不同的度量反映了人们对什么是”好”这个最根本问题的不同认识,而不同...

树蛙的由来

做一个不断改变的树蛙人

阳光明媚的夏天,一只胸怀大志的青蛙蹲在田埂上,做了一个十分重要的决定:要爬上河边那棵最高的柳树,看看夏天最美丽的风景。知道了这只青蛙爬树的志向后,所有的青蛙都向它投来了羡慕和尊敬的目光,因为它们知道这是一只多么优秀的青蛙,而它们又是多么地信任它。这只青蛙选中位置就往树上跳了,其他所有的青蛙都鼓着眼睛拭目以待。可是,这只青蛙大多是还没抱着树干就掉了下来;即使少数几次抱住了,又不知下一步怎么办,...

大数据时代四大思维方式转变

总体性、容错性、关联性、智能化思维

随着近年来大数据技术的快速发展,大数据所创造的价值深刻改变了我们的生活、工作和思维方式。大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化: 第一,人们处理的数据从单一样本数据变成全量数据(全样本数据); 第二,由于是海量数据和全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求; 第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关性关系...

jupyter notebook简介

jupyter是什么怎么用

1.Jupyter notebook 是什么? 在没有notebook之前,在IT领域工作的我都是这样工作的: 在普通的 Python shell 或者在IDE(集成开发环境)如Pycharm中写代码,然后在word中写文档来说明你的项目。 这个过程很反锁,通常是写完代码,再写文档的时候我还的重头回顾一遍代码。最蛋疼的地方在于,有些数据分析的中间结果,我还的重新跑代码,然后把结果弄到文档...

Python的前世今生

Python的起源与发展

Python的创始人为吉多*范罗苏姆(Gudio van Rossum) python的历史 1.1989年的圣诞节期间,吉多*范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的解释程序,作为ABC语言的一种继承。 2.ABC是由吉多参加设计的一种教学语言,就吉多本人看来,ABC这种语言非常优美和强大,是专门为非专业程序员设计的。但是ABC语言并没有成功,究其原因,吉多认为是非开发...

回归分析的思想

回归分析的“道”与“术”

学过统计学的同学们都知道一件事情,回归分析师数据分析的一个非常重要的模型方法。而且这些模型很可能是线性的、非线性的,也可能是参数的、非参数的,甚至是一元的、多元的,低维的、高维的,不尽相同。所以,把数据转化为价值,需要一个非常重要且精妙的思想方法:回归分析。 另外,这些都是在“术”的层面讨论回归分析。除了“术”,回归分析还有一个更高的“道”的层面。 回归分析的“道” 在这个层面,回归分析可以...

数据挖掘算法

数据挖掘算法在现实生活中的应用

数据挖掘算法在现实生活中的应用 如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是如果了解一点点数据挖掘的知识,你或许会有柳暗花明的感觉。 本文,主要想简单介绍下数据挖掘中的算法,以及它包含的类...

数据挖掘问题思维

数据挖掘主要解决的四类问题

数据挖掘主要解决的四类问题 数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业务知识是设计有效的相关变量的必要条件,而分析人员的思维模式从另外一个方面也保障了设计变量的结构化和完整性。所以我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难的。 一般来说,数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测。数据挖掘非常清晰的界定了它...

R语言的前世今生

R语言的起源发展

R语言的起源历史 R语言是S语言的一种方言,是“GNU S”, 一个自由的、有效的、用于统计计算和绘图的语言和环境,它提供了广泛的统计分析和绘图技术:包括线性和非线性模型、统计检验、时间序列、分类、聚类等方法。 什么是S S语言是由Bell实验室的John Chambers等人开发的。 S语言1976年开始作为内部统计分析环境–最初作为Fortran库的实现。 最初语言版本不包括统计模型...