面向电力审计领域的两阶段短文本分类方法研究

赵雅欣; 郑明洪; 石林鑫; 向菲; 江金洋; 尹心

doi:10.13718/j.cnki.xdzk.2020.10.001

面向电力审计领域的两阶段短文本分类方法研究

1.
国网重庆市电力公司，重庆 404100

2.
国网重庆市电力公司电力科学研究院，重庆 401123

基金项目: 国家电网公司总部科技项目(1300201999440A0000)；国网重庆市电力公司电力科学研究院科学技术项目(SGCQDK00NYJS2000111)

详细信息

作者简介:
赵雅欣(1977-)，女，高级会计师，主要从事大数据审计分析的研究 .

中图分类号: TP391.1

A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies

1.
State Grid Chongqing Electric Power Company, Chongqing 404100, China

2.
State Grid Chongqing Electric Power Research Institute, Chongqing 401123, China

摘要: 为解决电力审计领域中将审计发现问题按标准问题定义进行归类的现实需求，提出了一种两阶段短文本分类方法.该方法包括粗分类和细分类两个阶段.粗分类阶段通过对审计报告文本中的主观问题定性，对国网电力审计问题库文本中的审计问题的一级类目等粗粒度特征进行模糊匹配，实现审计发现问题预分类.细分类阶段通过对审计报告文本中的问题进行描述，对国网电力审计问题库文本中的审计问题的二、三级类目等细粒度属性进行文本特征抽取、特征向量化，并将粗分类阶段的结果用于文本特征和向量化的权值调整和相似性度量的对象范围选择，实现基于非结构化文本的审计问题分类.国网重庆市电力公司2016年审计发现问题汇总数据的实验结果表明，该方法能够有效提升审计问题分类性能，能为电力审计行业规范审计报告、提高审计效率提供有力支持.
- 电力审计 /
- 短文本 /
- 两阶段分类器 /
- 文本特征提取 /
- 加权Word2vec /
- 模糊匹配
Abstract: Automatic classification of problems that are found in the process of power-grid auditing into standard problem categorizations is of great practical needs. In order to address this issue, a two-phase short-text classification method is proposed in this paper. This classification method contains a coarse classification phase and a finer classification phase. In the coarse classification phase, the fuzzy matching method is usedto classify the auditing problems based on their coarseness features such as a general specification of auditing problems in the auditing problem reports. Then the results obtained from the coarse classification phase are utilized for text feature extraction and vectorization to determine the class candidates in the finer classification phase. The final class of an auditing problem depends on the similarity between its finer features, i.e. a short-text based problem description, and those of class candidates. The experimental results based on the 2016 auditing data provided by State Grid Chongqing Electric Power Company show that our proposed method can improve the classification performance for power-grid auditing problems.
- power-gird audit /
- short text classification /
- two-phase classifier /
- textfeature extraction /
- weighted Word2vec /
- fuzzy matching .
图 1 两阶段电力审计短文本分类方法示意

下载: 全尺寸图片幻灯片

图 2 对比实验结果

下载: 全尺寸图片幻灯片

图 3 一级分类实验结果

下载: 全尺寸图片幻灯片

[1]	宁亚辉, 樊兴华, 吴渝.基于领域本体的短文本分类[J].计算机科学, 2009, 36(3): 142-145. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkx200903038
[2]	邓丁朋, 周亚建, 池俊辉, 等.短文本分类技术研究综述[J].软件, 2020, 41(2): 141-144. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=ranj202002030
[3]	SALTON G. A Vector Space Model for Automatic Indexing [J]. Communications of the ACM, 1975, 18(11): 613-620. doi: 10.1145/361219.361220
[4]	doi: http://dl.acm.org/citation.cfm?id=2999959 MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed Representations of Words and Phrases and Their Compositionality [J]. Advances in Neural Information Processing Systems, 2013, 2013: 3111-3119.
[5]	LE Q, MIKOLOV T. Distributed Representations of Sentences and Documents [C] //Proceedings of the International Conference on Machine Learning. Beijing: JMIR, 2014: 1188-1196.
[6]	汪静, 罗浪, 王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用, 2018, 7(5): 211-217. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjxtyy201805033
[7]	伍洋, 钟鸣, 姜艳, 等.面向审计领域的短文本分类技术研究[J].微电子学与计算机, 2015, 32(1): 5-10. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=wdzxyjsj201501002
[8]	陈平, 匡尧, 胡景懿, 等.增强领域特征的电力审计文本分类方法[J].计算机应用, 2020, 40(S1): 109-112. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyy2020z1021
[9]	张梦倩, 张莉.粗-细两阶段卷积神经网络算法[J/OL].计算机科学与探索, (2020-07-23) [2020-08-05]. https: //kns. cnki. net/kcms/detail/11. 5602. TP. 20200723. 1653. 018. html.
[10]	陶新民, 曹盼东, 宋少宇, 等.基于两阶段学习的半监督支持向量机分类算法[J].信息与控制, 2012, 41(1): 7-13. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xxykz201201002
[11]	LI Y J, LIU B. A Normalized Levenshtein Distance Metric [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1091-1095. doi: 10.1109/TPAMI.2007.1078
[12]	ZHANG W, YOSHIDA T, TANG X. A Comparative Study of TF^* IDF, LSI and Multi-Words for Text Classification [J]. Expert Systems with Applications, 2011, 38(3): 2758-2765. doi: 10.1016/j.eswa.2010.08.066
[13]	陈开渠, 赵洁, 彭志威.快速中文字符串模糊匹配算法[J].中文信息学报, 2004, 18(2): 59-66. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zwxxxb200402009
[14]	黄承慧, 印鉴, 侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报, 2011, 34(5): 856-864. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjxb201105009
[15]	CHE W X, LI Z H, LIU T. LTP: A Chinese Language Technology Platform [C] //Proceedings of the 23rd International Conference on Computational Linguistics. Beijing: Association for Computational Linguistics, 2010: 13-16.
[16]	陈沈焰, 吴军华.基于本体的概念语义相似度计算及其应[J].微电子学与计算机, 2008, 25(12): 96-99. doi: http://www.cnki.com.cn/Article/CJFDTotal-WXYJ200812026.htm
[17]	李生琦, 天巧燕, 汤承.基于《知网》词汇语义相关度计算的消歧方法[J].情报学报, 2009, 28(5): 706-711. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbxb200905011

图( 3)

计量

文章访问数: 1028
HTML全文浏览数: 1028
PDF下载数: 226
施引文献: 0

全文HTML

在电网审计领域中，如何根据所发现问题的自然语言描述对审计问题进行规范化的定性和归类是当前尚未解决的关键问题.一方面，随着信息化的快速发展，电网各企业积累了大量的非结构化审计报告文本，文本中包含了审计人员人工记录的审计问题描述、审计问题定性和问题分类.受审计人员个性化语言表达和主观判断的影响，这些文本具有非特征性和歧义性的显著特点，主观的问题分类与国网电力审计问题库的问题类目标准定义存在较明显的不一致.因此，如何基于电力审计问题报告文本对审计问题进行科学规范的分类是提升审计管理质量和效能的现实需求.另一方面，电网企业的审计报告和国网电力审计问题库大多是短文本，信息有限，同时又具有鲜明的行业特征(例如：文本相似度高，分类边界模糊等^[1-2])，这些特征给电力审计领域短文本分类带来一定阻碍，有待进一步研究.

近年来，短文本的分类问题得到广泛关注，已对此提出多种方法.其中，通过将短文本向量化来构建文本表示模型是当前的主流方法.该类经典方法包括向量空间模型(Vector Space Model，VSM)、Word2vec模型、Doc2vec模型等. VSM模型最初由文献[3]提出，这种模型将单词以向量的形式表示出来，因此也常被称为词袋模型(Bag of Words，BoW)^[3].词袋模型灵活简单，在处理少量文本时能达到不错的效果，但由于词袋模型和词汇数量密切相关，当处理的数据较大时，容易造成维度灾难.文献[4]提出的Word2vec模型是当下比较流行的文本建模方法.这种方法将单词放入神经网络中训练得到词向量，该方法不受词汇量的约束，能够人为设置向量维度，可与其他特征提取方法结合计算词向量，这种模型结构克服了词袋模型的缺点. Doc2vec模型^[5]是基于Word2vec模型提出的句向量算法，该算法能从句子、段落等较长的文本中学习得到固定长度的特征表示，从而实现文本向量化.目前，Word2vec模型、Doc2vec模型已应用到中文文本的分类问题中，并取得了较好的分类效果.文献[6]提出了基于Word2vec模型的中文短文本分类方法，将词性作为特征计算加权向量.这种方法适用于词性对分类结果有很大影响的问题，比如情感分析领域中，对分类结果有较大影响的形容词和副词应具有较高权重，但不太适合于以反映客观事实为核心的审计报告类公文.文献[7]在Word2vec模型以及信息增益的基础上，考虑了同义词集以及词语位置信息，并结合特定规则调整词语的特征权重，以决策树作为分类器对审计文本进行了分类.文献[8]提出了改进的Doc2vec模型，并结合专业词典增强文本特征以实现专业领域文本分类.但是，这些方法均不太适用于分类标签多，分类标签具有层次结构，且训练数据集有限的电力审计分类问题.

由于审计报告文本存在审计问题主观定性、审计问题详细描述等粗、细粒度不同的属性，国网电力标准问题库文本也存在审计问题一、二、三级类目等不同粗、细粒度特征，可考虑对不同粒度属性分阶段处理实现分类.基于类似的分阶段分类思想，一些现有研究将粗、细(coarse-to-fine，CTF)策略^[9]应用于分类过程，提出两阶段分类模型.文献[9]采用粗、细两阶段分类法对医学细胞图像实现了分类，粗粒度分类阶段采用聚类算法对原始数据集进行了粗粒度的划分，细粒度分类阶段采用卷积网络对粗粒度数据集进行了进一步分类.文献[10]提出了一种基于两阶段学习的半监督支持向量机分类算法，该算法第一阶段采用标签传播算法去除数据噪声，第二阶段采用支持向量机对去噪数据进行分类.但是，这些方法并未针对粗、细粒度属性进行分阶段分类的设计，不太适用于电力审计分类问题.

本文从电力审计文本存在的多种粒度属性共存、文本相似度高、文本特征类间分布差异较大等特点出发，提出一种两阶段电力审计分类方法.具体来说，本文针对两类审计文本展开研究.第一类审计报告文本数据包含待分类的所有问题样本，每个样本包括主观问题分类、主观问题定性、主观问题事实描述3项.根据这3项属性的层次结构关系，本文将主观问题分类视为粗粒度属性，将主观问题定性和主观问题事实描述视为细粒度属性.第二类国网电力审计标准问题库文本数据包括一级类目、二级类目、三级类目3项.同样基于不同级别类目之间的层次结构关系，比如一级类目“人力资源管理”下可包含“福利保障管理”等多个二级类目，每个二级类目下又可包含类似“超计划、超范围、超标准劣质福利”等多个三级类目，本文将一级类目视为粗粒度属性，将二级类目和三级类目视为细粒度属性.本文所提方法将对粗、细粒度属性分成两个阶段进行分类处理.将本文提出的方法应用到2016年国网重庆市电力公司审计问题汇总数据，结果表明，该方法能够提高审计问题的分类准确性和计算速度，实现非结构化电力审计问题的标准化归类.

3. 结论

本文针对电力领域审计问题标准化归类的现实需求，从电力审计文本信息有限、部分内容相似程度较高、分类特征不明显的特点出发，提出了一种两阶段电力审计短文本分类方法.该方法针对审计文本中存在的粗、细粒度属性，综合运用模糊匹配、TF-IDF、加权Word2vec等技术并对权重计算方式进行了重定义.基于模糊匹配的粗分类结果能在一定程度上弥补传统Word2vec方法文本特征抽取不充分的问题.细分类阶段重定义的加权文本特征提取方式通过调整单词权值，提高单词的类别区分度.基于真实电力审计数据的实验结果表明，本文提出的方法具有更好的分类效果，能够为审计问题的定性和分类提供有力支持，有利于提升审计工作效率，并支持后期审计管理人员的深入分析.

参考文献 (17)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

面向电力审计领域的两阶段短文本分类方法研究

1.
国网重庆市电力公司，重庆 404100

2.
国网重庆市电力公司电力科学研究院，重庆 401123

作者简介:
赵雅欣(1977-)，女，高级会计师，主要从事大数据审计分析的研究 .

A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies

1.
State Grid Chongqing Electric Power Company, Chongqing 404100, China

2.
State Grid Chongqing Electric Power Research Institute, Chongqing 401123, China

计量

面向电力审计领域的两阶段短文本分类方法研究

作者简介: 赵雅欣(1977-)，女，高级会计师，主要从事大数据审计分析的研究
1. 国网重庆市电力公司，重庆 404100

2. 国网重庆市电力公司电力科学研究院，重庆 401123

English Abstract

A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies

全文HTML

1.1. 阶段一：基于模糊匹配的粗分类

1.2. 阶段二：基于模糊匹配结果的细分类

1.2.1. 基于TF-IDF的文本特征提取

1.2.2. 基于加权Word2vec的文本特征向量化

1.2.3. 基于余弦相似度的相似性计算

目录

留言板

面向电力审计领域的两阶段短文本分类方法研究

1. 国网重庆市电力公司，重庆 404100 2. 国网重庆市电力公司 电力科学研究院，重庆 401123

作者简介: 赵雅欣(1977-)，女，高级会计师，主要从事大数据审计分析的研究 .

A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies

1. State Grid Chongqing Electric Power Company, Chongqing 404100, China 2. State Grid Chongqing Electric Power Research Institute, Chongqing 401123, China

计量

出版历程

面向电力审计领域的两阶段短文本分类方法研究

作者简介: 赵雅欣(1977-)，女，高级会计师，主要从事大数据审计分析的研究 1. 国网重庆市电力公司，重庆 404100 2. 国网重庆市电力公司 电力科学研究院，重庆 401123

English Abstract

A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies

全文HTML

1.1. 阶段一：基于模糊匹配的粗分类

1.2. 阶段二：基于模糊匹配结果的细分类

1.2.1. 基于TF-IDF的文本特征提取

1.2.2. 基于加权Word2vec的文本特征向量化

1.2.3. 基于余弦相似度的相似性计算

目录

1.
国网重庆市电力公司，重庆 404100

2.
国网重庆市电力公司电力科学研究院，重庆 401123

作者简介:
赵雅欣(1977-)，女，高级会计师，主要从事大数据审计分析的研究 .

1.
State Grid Chongqing Electric Power Company, Chongqing 404100, China

2.
State Grid Chongqing Electric Power Research Institute, Chongqing 401123, China

作者简介: 赵雅欣(1977-)，女，高级会计师，主要从事大数据审计分析的研究
1. 国网重庆市电力公司，重庆 404100

2. 国网重庆市电力公司电力科学研究院，重庆 401123