树蛙人的世界

问题导向, 实践操作, 数据挖掘其实很容易!

怎么做到长期写一个价值博客

注意到我并没有说“怎么做到长期坚持写一个价值博客”,因为当思考和总结成为习惯之后,诉诸文字以及借助书写来进一步思考就变成了一件自然而然的事情,就变成了一件“因为你在思考和总结从而必须书写下来”的事情,博客就变成了副产品。 一开始的时候你是因为要写博客而去使劲地思考和总结,指望给出令人眼睛一亮的东西,到了后来,就变成了因为你习惯了思考和总结,因为你意识到书写是更好的思考,你就必须使你的想法成...

写博客的好处(下)

4.讨论是绝佳的反思。 另一方面,很多时候我们并不是有机会说给完全不懂的人听,更大的可能性是说给同领域有一定基础的人听,这个时候并不代表就不能促使反思了,实际上,你会发现,如果你公开你的想法,几乎总能看到与你持不同意见的人,然后你通过比较你和他的观念之间的差别,会发现你们在一开始的思路上就存在差异,差异从哪里来的?在进一步讨论中你们就会不断地迫使对方拿出更深层次的理由,这同样也是一种非常有...

写博客的好处(上)

0.缘起 最近坚持做网站写博客,但很多时候关于写什么自己也很苦恼。看到刘未鹏的博客《为什么你应该(从现在开始就)写博客》深有体会,特整理如下。 用一句话来说就是,写一个博客有很多好处,却没有任何明显的坏处。 让我说得更明确一点:用博客的形式来记录下你有价值的思考,会带来很多好处,却没有任何明显的坏处。Note:碎碎念不算思考、心情琐记不算思考、唠唠叨叨也不算思考、没话找话也不算思考,请...

VIX恐慌指数

定义、计算方式、关系、局限性及改进

1. 定义 VIX是由CBOE(芝加哥选择权交易所)在1993年所推出,是指数选择权隐含波动率加权平均后所得之指数。 2. 计算方式 起初是选取S&P100指数选择权的近月份与次月份最接近价平的买权及卖权共八个序列,分别计算其隐含波动率之后再加权平均所得出的指数,后来该指数在2003年修正将选取标的从S&P100改为S&P500并将最接近价平的买权及卖权的序列改...

12345,有事找政府

数据挖掘故事(十)

本文转自狗熊会精品案例《朴素贝叶斯:12345,有事找政府》。 遇到问题,我们该找谁? 在我们的生活中,常常会遇到一些突发情况,需要诉诸政府部门或是专门的机构来解决。比如,当我们遇到偷盗抢劫或是打架斗殴等治安问题时,自然会想到拨打110来解决;当我们遇到火灾的时候,必然会拿起手机拨打119火警电话,消防队员就会及时赶到;当身边的亲人或朋友突发疾病时,可以拨打120急救电话,救护车会很快赶...

“狼来了”故事的贝叶斯思考

贝叶斯思想启示

我们从小就很重视诚信教育。你看我们从小就学习如果打破了花瓶要跟姑妈讲实话,这是有实际指导意义的;还有华盛顿砍了他爹心爱的小桃树也主动坦白,不过毕竟我们中国人家里有斧子还有桃树可以砍的不多,难以模仿。更虚幻的也更招小孩子喜欢的应该就是“狼来了”的故事了。对儿童来说讲动物比讲名人更有吸引力。 我们不妨用贝叶斯公式重温一下这个故事,看小孩子第三次喊“狼来了”的时候村民对他的信任度是多少。这个例子...

大数据思维与数据挖掘能力正成为大型商业银行的核心竞争力

数据挖掘故事(九)

本文转自《征信》 2016年06期,黄志凌《大数据思维与数据挖掘能力正成为大型商业银行的核心竞争力》。 银行发展战略成功的关键是培养自己的核心竞争力。什么是核心竞争力?有人说是IT,有人说是人才,有人说是客户,总而言之,各有各的理解。“核心竞争力”最关键的特点是“不可复制”“不可替代”。一般来说,产品是可以被复制的,客户是经常有流动的,这些都难以成为银行的核心竞争力。而大数据能力则不同,由...

贝叶斯的故事

朴素贝叶斯思想及应用

一、引言 你和我之前的人生, 就像是来自同一个分布族的共轭曲线, 即使有各自的参数空间, 也注定要相识相念。 你和我之后的人生, 是我们相扶相持下不离不弃的最大似然, 用“信任与珍惜”的先验去修正所有后验, 用“包容和分享”的样本去做无悔一生的推断。 这是朴素的贝叶斯思想, 也是我们朴素的爱情宣言。 二、贝叶斯的故事 “托马斯.贝叶斯……这个生性孤僻,哲学气味重于数学...

从谷歌流感趋势谈大数据分析的光荣与陷阱

数据挖掘故事(八)

一、谷歌流感趋势:未卜先知?   “谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。甫一登场,GFT就亮出十分惊艳的成绩单。2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报...

数据挖掘在金融行业的应用

十大应用场景介绍

目前数据挖掘在各行各业应用广泛,尤其在金融、保险、电子商务和电信方面得到了很好的效果,我们对金融行业数据挖掘应用做了一个简单的总结如下。 1.风险控制(贷款偿还预测和客户信用评价) 有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素和非相关因素。例如,与货款偿还风险相关的因素,包括货款率、资款期限、负债率、偿还...