12345,有事找政府

数据挖掘故事(十)

Posted by 刘政永 Dmer on June 7, 2020

本文转自狗熊会精品案例《朴素贝叶斯:12345,有事找政府》。

遇到问题,我们该找谁?

在我们的生活中,常常会遇到一些突发情况,需要诉诸政府部门或是专门的机构来解决。比如,当我们遇到偷盗抢劫或是打架斗殴等治安问题时,自然会想到拨打110来解决;当我们遇到火灾的时候,必然会拿起手机拨打119火警电话,消防队员就会及时赶到;当身边的亲人或朋友突发疾病时,可以拨打120急救电话,救护车会很快赶到,将病人及时送到医院救治。

然而,我们的日常生活中遇到的问题远远不只这些,比如,街边有一个下水道盖坏了, 应该找谁来维修呢?小区附件有一个建筑工地昼夜施工,严重影响了我们的休息,应该向谁反映呢?上下班乘坐的公交总是晚点,我们又能如何解决呢?事实上,为了方便与市民的沟通交流,解决我们生活中会遇到的、各式各样的民生问题,各地市政府大都开通了政府便民服务电话“12345”,市民可以通过热线向政府部门提出建议、意见或进行投诉、举报等事项。

市民热线和头疼的老王

于是,通过“12345”政府便民服务电话,我们可以全天候地反馈身边大大小小的问题,将我们的诉求诉诸政府部门,以期得以解决。在我们的生活更为便捷了的同时,便民服务电话后台中心的负责人老王却犯了愁。

市民服务热线实行的是“一号对外、集中受理、分类处置、协调联动、限时办理”的工作机制。也就是说,当我们拨打“12345”热线电话后,电话首先会由呼叫中心热线接听专员接听。热线接听专员接听群众来电后,对能直接解答的咨询类问题,依据知识库信息直接解答。对于不能直接解答,例如投诉类型的电话会通过电脑直接记录下来。然后由经验丰富的工作人员来对这些建议与投诉进行分类,及时转交相关区县、部门办理。相关区县、部门会在限定时间内进行解决,同时将办理结果反馈给市民服务热线。

老王的工作就是负责将热线接听专员记录下来的建议和投诉信息进行分类,争取迅速、准确地将信息划分到对应的政府职能部门,进行处理。分类处置,作为“12345”便民热线的工作流程中连接市民和政府职能部门的桥梁,其重要性不言而喻。如果不能准确分类,不仅会消耗更多的政府资源,还会拖长市民们的投诉和建议得到解决的时间。这可不是政府服务热线开通的初衷。

老王的烦恼

老王作为便民服务电话后台中心的负责人,为如何提高建议和投诉信息的分类效率,可谓是急得愁眉不展。后台中心目前都是靠专门的工作人员,凭借他们的经验来划分,再统一提交到相关的部门,可是即使是有经验的老员工也常常出现分错的情况。 此外,有经验的工作人员本就不好找,巨大的工作量之下,还频频有员工辞职或是调离岗位。最近,由于市民对政府便民热线越来越熟悉,也越来越认可这样的建议和投诉的方式,通过“12345”热线打来的电话越来越多了。老王在欣喜之余却更焦虑了:电话量激增,有经验的员工不足,导致分类处理效率跟不上。

着急得食不知味好几天的老王看着便民电话后台中心里一份份记录着每一条处理记录的文档,心想,要是有什么方法,能够将过去的分类经验积攒下来,甚至能够根据市民来电的信息记录自动分类,那就好了。

数据,可以解决问题吗?

老王想,最近那么流行数据分析,那么,数据分析的方法能不能解决自己的问题呢? 老王咨询数据科学家们之后,开始了他的数据分析之旅。

首先,他从刚刚过去的12月的处理记录中提取了2000条被正确分类的建议投诉信息,包含市民建议或投诉的文本记录,以及最终受理的政府部门。他想要看看投诉主要集中在哪些部门呢?于是通过对记录中各政府部门的受理数量进行了统计。发现,在12月中,市水务集团被投诉的最多,而市供电公司与市房地产集团收到的投诉最少。老王猜测,这可能是因为该城市为北方的某省会城市。这时候城市的气温极低,水管容易破裂造成街道、楼梯与住房等地方结冰,影响其他人的正常生活,故投诉较多。

让计算机“读懂”文本

老王想,那不同部门的职能不同,受理的市民问题内容是不是也会有区别呢?不过,计算机可没法像人一样“读懂”这些长长的文本。为了让计算机能够顺利处理文本数据,老王选择了一种最典型的处理方法,也就是,将每一条投诉建议的文本,对照某种已经存在的词汇表,记录词汇表中每个词在每一条投诉建议的文本内容中出现的次数。通过这样的方法,老王成功地将每一条的投诉建议的文本,转换成了一系列记录着词汇表中每个词词频的数字。

之后,老王尝试对不同政府部门接到的投诉建议的内容中出现的词的次数进行了统计,并尝试运用“词云”的方式对结果进行了可视化。他发现,供热集团接受的投诉中“室温”与“帮助”这两个词出现比较频繁。可以猜测,这些投诉的大致内容可能是在吐槽“供暖后室温很低”并寻求相应的“帮助”。而从水务管理局受理的投诉建议内容中,则可以发现“朝阳区”最近的水务投诉相当多,应该加以重视。老王注意到,不同部门受理的投诉建议的内容,不仅包含着像这样有趣且有用的信息,似乎还隐隐地反映了不同部门的职能特点。

用计算机代替人工分类

分析到这里,老王心里有了一个猜测,既然不同政府部门的职能不同,受理内容也可以看出有比较明显的差异,那么,这些差异是不是就是所谓的“特征”?可不可以用来帮助他实现自动化的投诉建议信息分类呢?老王想,既然不同词汇在不同部门的受理投诉建议内容中出现的次数有高有低,这不就是不同词汇在不同类别的投诉中出现的“概率”不同吗?那似乎,有一种叫做朴素贝叶斯的模型,可以处理这样的情况。

由于投诉建议的内容一般不长,同一个词反复出现的情况并不算多,那么,似乎可以将老王此前处理好的、词汇表中各个词汇出现的次数,简化为词汇表中各个词汇是否出现。

Y变量:投诉建议的受理部门 X变量:已有词汇表中各个词汇在投诉建议的文本内容中是否出现

所谓的“朴素”贝叶斯分类究竟是怎么做的呢?朴素贝叶斯分类的核心是贝叶斯定理和特征条件独立假设。就老王面对的这个数据集来说,不同词汇在归属于不同部门的投诉建议内容中出现的概率显然不同,例如,提到“自来水”的投诉建议属于市水务管理局职能范畴的可能性,必然要高于属于市供热集团职能范畴的可能性。换句话说,当我们看到投诉建议的内容中有“自来水”这个词时,没有其他任何信息,猜一猜这条投诉建议应当划归哪个部门,我们十有八九会猜“市水务管理局”。为什么呢?因为出现“自来水”这个词的投诉建议,最后被归属于市水务管理局处理的比率最高。那么,老王辛苦构造的词汇表就可以派上用场了。老王可以通过简单统计,得到各个词汇出现时(也就是各个特征)分属于各个类别的概率。对于尚未被分类的样本,老王只需要借助基本的概率论知识,计算出概率最大的那个分类就可以了。

老王运用朴素贝叶斯的模型,将1600条投诉建议记录“训练”得到了一个分类模型,并将模型应用于400条投诉建议记录上,尝试预测这400条投诉建议记录应该被分到哪一个政府部门。结果出来了,老王惊喜的发现,模型将投诉建议记录准确分类的概率居然可以达到95%左右!

老王心里的一块大石头总算是落了地,在过去的几年里,便民服务电话后台中心早已累积了许多投诉建议的分类记录,这些分类记录可都是负责分类的工作人员的经验结晶。通过模型,就可以把这些分类的“经验”提取出来,运用于当前的投诉建议分类工作了!而且,运用这样的模型,就可以实现计算机自动化处理投诉建议的分类了!这样,自动化处理的准确率相比人工分类要高得多,还可以大大减少人工处理的工作量, 只需要工作人员对误分类的投诉建议,进行重新分类就可以了。此外,有经验的员工离职率高、新员工经验不足易出错的问题也得到了解决。至此,老王的头总算是不疼了。