首页
>审计动态>审计天地
利用中文分词算法快速识别举报内容的实例
发布日期:2018-08-28 16:54 访问次数: 信息来源:威海市审计局 字号:[ ]


摘要:本文主要介绍利用中文分词算法对举报信内容进行数据挖掘,并以图表形式展示其核心信息的实践案例。中文分词技术作为文本数据挖掘的基础,是对输入计算机的一段中文进行分词处理,得到一系列具有语义的字词,本文采用jieba算法库实现中文分词功能。图表显示是为了直观、快速的查看信息,本文采用wordcloud词云和matplotlib绘图库,分别对分词算法获得的词语进行定性和定量的分析,帮助提高发现举报线索的效能。

关键字:中文分词,报表,jieba,wordcloud ,matplotlib,python

 

举报信作为目前群众监督最常用的一种方式,往往包含了大量的信息,如果可以对其善加利用,挖掘出有价值的线索,快速聚焦问题人物和事件,必定能提高监督部门的工作效率。本文将通过一则实例介绍如何运用中文分词算法对举报信的内容进行处理,获得一系列有意义的数据,并以多种图表方式直观展示挖掘出来的信息,进而帮助聚焦问题线索。

一、前期准备

本文以网上随机得到的一封举报信为操作对象,将举报信内容复制,粘贴到文本文件中,取名“lz.txt”;准备一个用户字典,将与监督对象相关的信息作为关键字词录入字典文件,取名“userdict.txt”,以便后续中文分词算法调用,具体内容格式如图1(关键信息隐藏);准备python运行环境,需要根据不同的操作系统自行配置,本次案例采用Windows 7系统下安装的python3.5集成开发环境;下载并安装所需要的算法库和工具包,包括分词算法jieba、collections,绘图工具包matplotlib、wordcloud,以及数据处理工具包pandas、numpy。这些资源都是开源的,只要是非商业用途,都可以随意下载和使用。

图1

二、分词处理

机器识别研究领域之一就是利用计算机算法处理中文内容,从中识别出有价值的信息。本文采用了中文分词算法,将一个汉字序列切分成一个一个单独的词,并按照一定的规范将连续的字序列重新组合成词序列。现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,具体内容可以自行查阅,本文不再展开。本次实例采用的中文分词算法库是jieba,它提供了三种分词模式,分别是精确模式、全模式和搜索引擎模式,各有优缺点,可根据实际情况选用,此处选用了全模式分词方法,具体代码如图2。

                                                                                    

图2

三、绘制图表

一封举报信经过计算机中文分词算法处理后,会得到成百上千的关键字词,试想实际工作需要处理大量的举报信,那么计算机得到的分词将是海量的数据,因此需要采用图表的形式对海量分词进行定性分析和定量研究。本例采用了词云wordcloud工具对得到的中文分词进行定性分析,词频高的字体尺寸较大,词频低的尺寸小,具体代码见图3,词云图见图4;采用柱形图的方式展示词频最高的前30个字词,方便统计和分析,具体代码见图5,柱形图见图6。


图3

图4

图5

图6

四、总结

通过以上步骤,实现了对一封举报信内容进行分词处理,挖掘出一定量的信息(涉及单位、个人名称都已模糊处理)。如果将机器处理的举报信数量加大,那么就可以得到海量的举报信息,经过统计、分析、筛选,帮助聚焦时间、地点、人物和事件等,从而提升工作效能。(宋军)









打印本页 关闭窗口