A Maximum Entropy Model Text Classification Method Based on Improved Information Gain Feature Selection

Ming HE

doi:10.13718/j.cnki.xsxb.2019.03.019

For the shortcomings of traditional information gain (IG) feature selection algorithm:ignoring word frequency distribution, a new IG feature selection algorithm is proposed in this paper.The algorithm introduces the equalization ratio and word frequency location parameters within class.The new algorithm solves the problem that the traditional IG algorithm ignores the word frequency distribution and modifies the position parameter of word frequency within class to improve the accuracy of text classification.At last, the improved IG feature selection algorithm is applied to maximum entropy model (ME) for text classification.Experimental results show that, Compared with the traditional IG algorithm, the F1 value of the proposed method in this paper is higher than the traditional IG algorithm in text classification.In addition, the ME classification accuracy of this method is higher than the KNN algorithm, which shows that this method is feasible and effective.

HTML

随着信息时代的迅速发展，信息数据呈指数级增长，面对如此巨大的信息资源，如何有效地管理，使人们更加方便快捷地获得目标信息成为研究热点.文本信息挖掘中的文本分类技术有效解决了这一问题，文本分类是指未知类别的文本根据其内容信息，自动分类为一个或多个预先定义的类别^[1].文本分类的核心问题是通过一种算法构建分类器，文本分类方法有很多，常见算法有Rocchio算法、朴素贝叶斯分类算法、KNN算法^[2]、神经网络算法、SVM算法^[3]等.近年来，最大熵模型对未知事件尽可能使其分布均匀的特性，使得该算法在文本分类中得到研究与应用.

文本分类系统常采用向量空间模型(VSM)来实现文本信息描述，VSM的特征项涉及整个文本的词条，导致了VSM的高维性^[4-5]，这对分类训练时间及准确性造成了很大影响.特征选择实现了对VSM文本特征的降维处理，在文本分类时能够保留携带信息量大、对分类贡献大的词，在降低文本特征空间维数的同时提高分类性能^[6].特征选择常用方法有互信息、开方检验、特征权(TS)、信息增益(IG)等.互信息(Mutual Information, MI)表示2个变量之间的相关性，可以看成是一个随机变量中包含的关于另一个随机变量的信息量.信息IG算法考虑特征词条未发生情况的优点使得其得到更多应用，常用于图像相关性处理和文本分类.

文献[7]针对传统IG算法的缺陷提出了一种改进IG算法，该算法引入特征分布差异因子、类内和类间加权因子，分类准确度优于传统算法，但是改进算法增大了算法计算复杂度，使得分类时间变长.文献[8]通过引入比例因子提出了自适应IG算法，该算法自动调节比例因子，使得改进IG算法适用于平衡数据集和非平衡数据集等不同的语料库，同时解决了信息增益特征选择方法等比例地组合正、负相关特征导致文本分类中分类精度下降的问题.文献[9]根据特征对IG贡献大小及在新文本中出现的次数，设计了3种基于IG特征权重的分类算法，能够在保证分类精度的同时提高训练速度，算法具有较低的时间复杂度.文献[10]针对传统IG算法的缺点，对IG算法进行改进，该算法首先对数据集类别选择特征，然后优化合并不同类别特征，通过合并特征的出现概率来计算IG权重，并引入类内和类间分布因子，改进IG算法优于传统算法.

通过对传统IG算法及已有的改进算法进行分析研究，本文提出了一种新的改进IG算法.该算法通过引入均衡比和类内词频位置参数，解决了传统IG算法忽略词频分布对分类的弱化问题和局部特征选择缺陷，修正传统类内词频位置参数，提高特征选择算法对分类精度的影响，并将该改进IG特征选择算法用于最大熵模型对文本进行分类，性能优于传统IG算法及其他分类算法.

1. 信息增益算法

信息增益(IG)是基于熵理论的评估方法，亦是一种很有效的特征选择方法，具有考虑特征词条未发生情况的优点.对于特征选择，就是将特征的重要程度量化之后再进行选择，而如何量化特征的重要性，就成为各种特征选择算法间最大的不同.开方检验量化方法的特点是关联性越强的特征越重要，其方法是使用特征与类别间的关联性来量化特征重要性. IG特征选择算法的特点是特征携带信息越多，特征越重要，IG是根据特征能够为分类系统带来多少信息来量化特征重要性.

IG被定义为通过减少变量的不确定性而获得的信息量：IG(X，Y)=E(X)-E(X|Y). IG计算的是词条特征，由信息理论可知，一个术语贡献的信息量越大就越重要.术语f用于确定C类的信息增益值，定义如下

式中C代表语料库中的文档集合；P(C_i)表示属于文档集中出现类别C_i的概率；P(f)表示特征f出现在文件中的概率；P(f)表示文件中没有出现f的概率；P(C_i|f)表示包含f的文档属于类别C_i的概率；P(C_i|)表示包含f的文档不属于类别C_i的概率.

通过上述分析，可以得知IG算法是一种非常典型的监督特征提取算法，具有很好的降低特征维数的作用，并被广泛应用于文本分类研究.然而，传统IG算法存在一些问题，导致IG算法在文本分类中精度还有提升空间.针对IG算法中存在的问题，本文提出了改进IG特征选择算法，并将该算法与最大熵模型结合，使得本文算法在文本分类时性能达到最优.

2. 改进IG特征选择的最大熵模型算法

IG算法中存在的问题主要有2个：

1) IG算法只考虑特征对整个系统的贡献，不能具体到一个特定的类别，这使得IG特征选择算法仅适合于进行所谓的“全局”特征选择(所有类别使用相同的特征集)，并且不能进行“本地”功能选择(因为每个类别都有自己的功能集，一些类别中的部分词出现次数很少).

2) 传统IG算法并没有考虑词频对文本分类的影响，2个特征项A和B分布在同一个文档中，即使A词频是B词频的10倍，仍然得到相同的IG值.当忽略词频分布时，只考虑文档频率可能会导致特征预测能力弱化，不能选择最有效的特征.

针对以上2个问题，本文对IG特征选择算法进行改进，引入了均衡比因子和类内词频位置参数来提高IG算法的性能.

2.1. 均衡比因子

均衡比因子是用来解决一个词在文档中出现多次与出现一次的IG值相同这个问题，IG算法中均衡比α表示词频在类别中分布均衡的程度.对于训练集中类别C_i(1≤i≤n)，特征f_i在C_i类文本中出现的频数为tf(f_i)，设λ_i=tf(f_i)/∑tf(f_i)，tf(f_i)表示在类别C_i中词频f的频率数，则词频均衡比α可以定义为

其中，$\bar \lambda = \left( {1/\mathit{n}} \right)\sum\limits_{i = 1}^m {{\lambda _i}} $.假设有3个类别，每个类别包含5个文档，有2个特征项F1和F2，其分布见表 1.

从表 1可以看出，F1较F2更频繁出现在类别1，因此判断F1具有较强的分类能力.但是用公式(1)计算时，2个特征值具有相同的IG值，如果引入词频平衡因子α，则可以得到不同的IG值，表 1中α_F₁＞α_F₂，表明词频均衡比因子可以有效地纠正IG限制.

2.2. 类内词频位置参数

在同一类别中每个文本的特征分布越均匀，特征分类能力就越强.因此，本文引入类内词频位置参数，该参数由样本方差反映，统计样本方差的本质是反映样本间的分散程度.假定在类别C_i(1≤i≤n)的文本d_ik(1≤i≤N_i)中，特征f_i出现的频数为tf(f_i)，则每个频率之间的样本方差为

类别中每个文本的频率方差变化越小，分类能力越强，两者之间的反比关系越大.因此，上述参数应归一化为

类别C_i文本的分布越均匀，则β越大，分类能力越强.

基于传统的IG算法引入了上述均衡比α和类内词频位置参数β，则改进了算法可表示为

2.3. 最大熵模型

最大熵模型是一种概率估计，该模型原理表明预测一个随机事件的概率分布时，应当满足全部已知的约束，而未知的情况下不做任何主观假设，这样使得概率分布最均匀，预测风险最小，能够得到概率分布的最大熵.

在本文中，将需要分类的一个文本作为一个事件，则待分类文本集合可表示为{(r₁，s₁)，(r₂，s₂)…(r_N，s_N)}，其中r_i(1≤i≤N)为具体文本，表示文本分类结果.根据最大熵模型，模型的概率分布必须与获得最大熵的训练集一致，通过拉格朗日乘数算法，最大熵的概率分布为

其中，f_i表示特征函数，f(r，s)→(0，1)，满足一定约束条件下取值为1，其他情况下取值为0；w_i表示特征函数f_i的权值，反映了特征对模型的重要程度，本文使用改进迭代算法计算权值；Z_w(r)表示归一化因子，有${Z_w}\left( r \right) = \sum\limits_s {{\rm{exp}}\left( {\sum\limits_i {{w_i}{f_i}\left( {r, s} \right)} } \right)} $，保证对所有可能的文本r则有$\sum\limits_r {p\left( {s\left| r \right.} \right) = 1} $.

改进IG算法解决了传统IG算法的缺陷，在特征选择将特征项在类间和类内分布的均匀程度考虑进来.另一方面，ME模型是比较成熟的模型，对比其他常用分类模型如SVM和KNN等，其分类性能优于其他分类模型.

4. 结论

作为文本分类的关键技术，特征选择算法对分类性能有直接影响.本文研究了传统IG特征选择算法，针对传统IG算法的不足，引入均衡比和类内词频位置参数，提出一种新的信息增益(IG)特征选择算法，该算法解决了传统IG算法忽略词频分布对分类的弱化问题，修正传统类内词频位置参数，提高了分类精度，并将该改进IG特征选择算法用于最大熵模型对文本进行分类，实验结果表明本文方法优于传统IG特征选择算法.把本文方法用于ME分类时性能优于KNN分类算法，说明本文方法可行、有效.

Figure (4) Table (6) Reference (10)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	赖娟, 金澎, 洪艳伟.文本分类中的主动多域学习[J].西南师范大学学报(自然科学版), 2014, 39(7):108-114. Google Scholar
[2]	周庆平, 谭长庚, 王宏君, 等.基于聚类改进的KNN文本分类算法[J].计算机应用研究, 2016, 33(11):3374-3377. Google Scholar
[3]	古丽娜孜·艾力木江, 孙铁利, 乎西旦, 等.一种基于SVM-修正KNN算法的哈萨克语文本分类[J].西北师范大学学报(自然科学版), 2014, 50(3):48-53. doi: 10.3969/j.issn.1001-988X.2014.03.010 CrossRef Google Scholar
[4]	JIANG R, KIM S, BANCHS R E, et al.Towards Improving the Performance of Vector Space Model for Chinese Frequently Asked Question Answering[C]//Asian Language Processing (IALP), 2015 International Conference on.Suzhou: IEEE, 2015. Google Scholar
[5]	SANTOSO I B, DEWA C K, AFIAHAYATI.The Implementation of Vector Space Model for Infectious Disease Diagnosis System Based on Pathophysiology Science[J].Advanced Science Letters, 2018, 24(1):682-685. doi: 10.1166/asl.2018.11787 CrossRef Google Scholar
[6]	肖雪, 卢建云, 余磊, 等.基于最低词频CHI的特征选择算法研究[J].西南大学学报(自然科学版), 2015, 37(6):137-142. Google Scholar
[7]	郭颂, 马飞.文本分类中信息增益特征选择算法的改进[J].计算机应用与软件, 2013, 30(8):139-142. doi: 10.3969/j.issn.1000-386x.2013.08.037 CrossRef Google Scholar
[8]	董微, 刘学, 倪宏.基于信息增益的自适应特征选择方法[J].计算机工程与设计, 2014(8):2856-2859. doi: 10.3969/j.issn.1000-7024.2014.08.047 CrossRef Google Scholar
[9]	李文斌, 刘椿年, 陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报, 2006, 32(5):456-460. doi: 10.3969/j.issn.0254-0037.2006.05.015 CrossRef Google Scholar
[10]	XU J, JIANG H.An Improved Information Gain Feature Selection Algorithm for SVM Text Classifier[C]//Cyber-Enabled Distributed Computing and Knowledge Discovery(CyberC), 2015 International Conference on.Xi'an: IEEE, 2015. Google Scholar

Message Board

A Maximum Entropy Model Text Classification Method Based on Improved Information Gain Feature Selection

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors

A Maximum Entropy Model Text Classification Method Based on Improved Information Gain Feature Selection