A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies

Ya-xin ZHAO; Ming-hong ZHENG; Lin-xin SHI; Fei XIANG; Jin-yang JIANG; Xin YIN

doi:10.13718/j.cnki.xdzk.2020.10.001

2020 Volume 42 Issue 10

Article Contents

Previous Article Next Article

Ya-xin ZHAO, Ming-hong ZHENG, Lin-xin SHI, et al. A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies[J]. Journal of Southwest University Natural Science Edition, 2020, 42(10): 1-7. doi: 10.13718/j.cnki.xdzk.2020.10.001

Citation:

Ya-xin ZHAO, Ming-hong ZHENG, Lin-xin SHI, et al. A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies[J]. Journal of Southwest University Natural Science Edition, 2020, 42(10): 1-7. doi: 10.13718/j.cnki.xdzk.2020.10.001

A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies

1.
State Grid Chongqing Electric Power Company, Chongqing 404100, China
2.
State Grid Chongqing Electric Power Research Institute, Chongqing 401123, China

More Information

Received Date: 15/08/2020
Available Online: 20/10/2020
MSC: TP391.1

Abstract

Automatic classification of problems that are found in the process of power-grid auditing into standard problem categorizations is of great practical needs. In order to address this issue, a two-phase short-text classification method is proposed in this paper. This classification method contains a coarse classification phase and a finer classification phase. In the coarse classification phase, the fuzzy matching method is usedto classify the auditing problems based on their coarseness features such as a general specification of auditing problems in the auditing problem reports. Then the results obtained from the coarse classification phase are utilized for text feature extraction and vectorization to determine the class candidates in the finer classification phase. The final class of an auditing problem depends on the similarity between its finer features, i.e. a short-text based problem description, and those of class candidates. The experimental results based on the 2016 auditing data provided by State Grid Chongqing Electric Power Company show that our proposed method can improve the classification performance for power-grid auditing problems.
- power-gird audit,
- short text classification,
- two-phase classifier,
- textfeature extraction,
- weighted Word2vec,
- fuzzy matching

References

[1]	宁亚辉, 樊兴华, 吴渝.基于领域本体的短文本分类[J].计算机科学, 2009, 36(3): 142-145. Google Scholar
[2]	邓丁朋, 周亚建, 池俊辉, 等.短文本分类技术研究综述[J].软件, 2020, 41(2): 141-144. Google Scholar
[3]	SALTON G. A Vector Space Model for Automatic Indexing [J]. Communications of the ACM, 1975, 18(11): 613-620. doi: 10.1145/361219.361220 CrossRef Google Scholar
[4]	MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed Representations of Words and Phrases and Their Compositionality [J]. Advances in Neural Information Processing Systems, 2013, 2013: 3111-3119. Google Scholar
[5]	LE Q, MIKOLOV T. Distributed Representations of Sentences and Documents [C] //Proceedings of the International Conference on Machine Learning. Beijing: JMIR, 2014: 1188-1196. Google Scholar
[6]	汪静, 罗浪, 王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用, 2018, 7(5): 211-217. Google Scholar
[7]	伍洋, 钟鸣, 姜艳, 等.面向审计领域的短文本分类技术研究[J].微电子学与计算机, 2015, 32(1): 5-10. Google Scholar
[8]	陈平, 匡尧, 胡景懿, 等.增强领域特征的电力审计文本分类方法[J].计算机应用, 2020, 40(S1): 109-112. Google Scholar
[9]	张梦倩, 张莉.粗-细两阶段卷积神经网络算法[J/OL].计算机科学与探索, (2020-07-23) [2020-08-05]. https: //kns. cnki. net/kcms/detail/11. 5602. TP. 20200723. 1653. 018. html. Google Scholar
[10]	陶新民, 曹盼东, 宋少宇, 等.基于两阶段学习的半监督支持向量机分类算法[J].信息与控制, 2012, 41(1): 7-13. Google Scholar
[11]	LI Y J, LIU B. A Normalized Levenshtein Distance Metric [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1091-1095. doi: 10.1109/TPAMI.2007.1078 CrossRef Google Scholar
[12]	ZHANG W, YOSHIDA T, TANG X. A Comparative Study of TF^* IDF, LSI and Multi-Words for Text Classification [J]. Expert Systems with Applications, 2011, 38(3): 2758-2765. doi: 10.1016/j.eswa.2010.08.066 CrossRef Google Scholar
[13]	陈开渠, 赵洁, 彭志威.快速中文字符串模糊匹配算法[J].中文信息学报, 2004, 18(2): 59-66. Google Scholar
[14]	黄承慧, 印鉴, 侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报, 2011, 34(5): 856-864. Google Scholar
[15]	CHE W X, LI Z H, LIU T. LTP: A Chinese Language Technology Platform [C] //Proceedings of the 23rd International Conference on Computational Linguistics. Beijing: Association for Computational Linguistics, 2010: 13-16. Google Scholar
[16]	陈沈焰, 吴军华.基于本体的概念语义相似度计算及其应[J].微电子学与计算机, 2008, 25(12): 96-99. Google Scholar
[17]	李生琦, 天巧燕, 汤承.基于《知网》词汇语义相关度计算的消歧方法[J].情报学报, 2009, 28(5): 706-711. Google Scholar

Access History

通讯作者: 陈斌, bchen63@163.com

1.
沈阳化工大学材料科学与工程学院沈阳 110142

Figures(3)

Export Citation

PDF

XML

Article Metrics

Article views(1063) PDF downloads(236) Cited by(0)

Access History

Other Articles By Authors

on this site
on Google Scholar

HTML

在电网审计领域中，如何根据所发现问题的自然语言描述对审计问题进行规范化的定性和归类是当前尚未解决的关键问题.一方面，随着信息化的快速发展，电网各企业积累了大量的非结构化审计报告文本，文本中包含了审计人员人工记录的审计问题描述、审计问题定性和问题分类.受审计人员个性化语言表达和主观判断的影响，这些文本具有非特征性和歧义性的显著特点，主观的问题分类与国网电力审计问题库的问题类目标准定义存在较明显的不一致.因此，如何基于电力审计问题报告文本对审计问题进行科学规范的分类是提升审计管理质量和效能的现实需求.另一方面，电网企业的审计报告和国网电力审计问题库大多是短文本，信息有限，同时又具有鲜明的行业特征(例如：文本相似度高，分类边界模糊等^[1-2])，这些特征给电力审计领域短文本分类带来一定阻碍，有待进一步研究.

近年来，短文本的分类问题得到广泛关注，已对此提出多种方法.其中，通过将短文本向量化来构建文本表示模型是当前的主流方法.该类经典方法包括向量空间模型(Vector Space Model，VSM)、Word2vec模型、Doc2vec模型等. VSM模型最初由文献[3]提出，这种模型将单词以向量的形式表示出来，因此也常被称为词袋模型(Bag of Words，BoW)^[3].词袋模型灵活简单，在处理少量文本时能达到不错的效果，但由于词袋模型和词汇数量密切相关，当处理的数据较大时，容易造成维度灾难.文献[4]提出的Word2vec模型是当下比较流行的文本建模方法.这种方法将单词放入神经网络中训练得到词向量，该方法不受词汇量的约束，能够人为设置向量维度，可与其他特征提取方法结合计算词向量，这种模型结构克服了词袋模型的缺点. Doc2vec模型^[5]是基于Word2vec模型提出的句向量算法，该算法能从句子、段落等较长的文本中学习得到固定长度的特征表示，从而实现文本向量化.目前，Word2vec模型、Doc2vec模型已应用到中文文本的分类问题中，并取得了较好的分类效果.文献[6]提出了基于Word2vec模型的中文短文本分类方法，将词性作为特征计算加权向量.这种方法适用于词性对分类结果有很大影响的问题，比如情感分析领域中，对分类结果有较大影响的形容词和副词应具有较高权重，但不太适合于以反映客观事实为核心的审计报告类公文.文献[7]在Word2vec模型以及信息增益的基础上，考虑了同义词集以及词语位置信息，并结合特定规则调整词语的特征权重，以决策树作为分类器对审计文本进行了分类.文献[8]提出了改进的Doc2vec模型，并结合专业词典增强文本特征以实现专业领域文本分类.但是，这些方法均不太适用于分类标签多，分类标签具有层次结构，且训练数据集有限的电力审计分类问题.

由于审计报告文本存在审计问题主观定性、审计问题详细描述等粗、细粒度不同的属性，国网电力标准问题库文本也存在审计问题一、二、三级类目等不同粗、细粒度特征，可考虑对不同粒度属性分阶段处理实现分类.基于类似的分阶段分类思想，一些现有研究将粗、细(coarse-to-fine，CTF)策略^[9]应用于分类过程，提出两阶段分类模型.文献[9]采用粗、细两阶段分类法对医学细胞图像实现了分类，粗粒度分类阶段采用聚类算法对原始数据集进行了粗粒度的划分，细粒度分类阶段采用卷积网络对粗粒度数据集进行了进一步分类.文献[10]提出了一种基于两阶段学习的半监督支持向量机分类算法，该算法第一阶段采用标签传播算法去除数据噪声，第二阶段采用支持向量机对去噪数据进行分类.但是，这些方法并未针对粗、细粒度属性进行分阶段分类的设计，不太适用于电力审计分类问题.

本文从电力审计文本存在的多种粒度属性共存、文本相似度高、文本特征类间分布差异较大等特点出发，提出一种两阶段电力审计分类方法.具体来说，本文针对两类审计文本展开研究.第一类审计报告文本数据包含待分类的所有问题样本，每个样本包括主观问题分类、主观问题定性、主观问题事实描述3项.根据这3项属性的层次结构关系，本文将主观问题分类视为粗粒度属性，将主观问题定性和主观问题事实描述视为细粒度属性.第二类国网电力审计标准问题库文本数据包括一级类目、二级类目、三级类目3项.同样基于不同级别类目之间的层次结构关系，比如一级类目“人力资源管理”下可包含“福利保障管理”等多个二级类目，每个二级类目下又可包含类似“超计划、超范围、超标准劣质福利”等多个三级类目，本文将一级类目视为粗粒度属性，将二级类目和三级类目视为细粒度属性.本文所提方法将对粗、细粒度属性分成两个阶段进行分类处理.将本文提出的方法应用到2016年国网重庆市电力公司审计问题汇总数据，结果表明，该方法能够提高审计问题的分类准确性和计算速度，实现非结构化电力审计问题的标准化归类.

3. 结论

本文针对电力领域审计问题标准化归类的现实需求，从电力审计文本信息有限、部分内容相似程度较高、分类特征不明显的特点出发，提出了一种两阶段电力审计短文本分类方法.该方法针对审计文本中存在的粗、细粒度属性，综合运用模糊匹配、TF-IDF、加权Word2vec等技术并对权重计算方式进行了重定义.基于模糊匹配的粗分类结果能在一定程度上弥补传统Word2vec方法文本特征抽取不充分的问题.细分类阶段重定义的加权文本特征提取方式通过调整单词权值，提高单词的类别区分度.基于真实电力审计数据的实验结果表明，本文提出的方法具有更好的分类效果，能够为审计问题的定性和分类提供有力支持，有利于提升审计工作效率，并支持后期审计管理人员的深入分析.

Figure (3) Reference (17)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

Message Board

A Two-Phase Short-Text Classification Method for Classifying Audit Problems in Power Grid Companies

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors