Detection and Analysis of Cybernetics Bullying Language on Common Chinese Social Network Platforms

LIU Zhi-yuan; FAN Yong-sheng; ZHANG Wan-li; FENG Ji; LI Yong; HUANG Jing

doi:10.13718/j.cnki.xsxb.2021.08.015

2021 Volume 46 Issue 8

Article Contents

Previous Article Next Article

LIU Zhi-yuan, FAN Yong-sheng, ZHANG Wan-li, et al. Detection and Analysis of Cybernetics Bullying Language on Common Chinese Social Network Platforms[J]. Journal of Southwest China Normal University(Natural Science Edition), 2021, 46(8): 86-94. doi: 10.13718/j.cnki.xsxb.2021.08.015

Citation:

LIU Zhi-yuan, FAN Yong-sheng, ZHANG Wan-li, et al. Detection and Analysis of Cybernetics Bullying Language on Common Chinese Social Network Platforms[J]. Journal of Southwest China Normal University(Natural Science Edition), 2021, 46(8): 86-94. doi: 10.13718/j.cnki.xsxb.2021.08.015

Detection and Analysis of Cybernetics Bullying Language on Common Chinese Social Network Platforms

1.
School of Computer and Information Science, Chongqing Normal University, Chongqing 401331, China
2.
State Grid Tianfu Electric Power Supply Company, Chengdu 610000, China

More Information

Corresponding author: FAN Yong-sheng ;
Received Date: 12/01/2021
Available Online: 20/08/2021
MSC: TP391.1

Abstract

In order to effectively detect the cyberbullying language on Chinese social platforms, a dozen typical Chinese social platforms are selected, and some samples are extracted from them for manual annotation to construct a training data set. On the basis of the training set, three types of classifiers, i.e. Naive Bayes, support vector machine and long-short-term memory neural network, are used to construct a classification model to classify and recognize unlabeled data. Experiments show that the above selected classifiers can effectively identify cyberbullying language with an accuracy rate of 0.87, 0.79 and 0.88, respectively.Of the three classifiers, the long-short-term memory neural network has the best effect. It is concluded that the classification model established with the help of big data can quickly detect the original data on social platforms and detect the existence of cyberbullying language. Finally, this paper also analyzes the correlation between offensive comment language and user rank, publication time and other attributes, and fits a Gaussian distribution model.
- natural language processing,
- cyberbullying language,
- text classification,
- Chinese social platform,
- big data model

References

[1]	石国亮, 徐子梁. 网络欺凌的界定及其特点分析[J]. 中国青年研究, 2010(12): 5-8. Google Scholar
[2]	刘文宇, 李珂. 基于批评性话语分析的网络语言暴力研究框架[J]. 东北师大学报(哲学社会科学版), 2017(1): 119-124. Google Scholar
[3]	朱嘉珺. 大数据视野下的网络侵害防治——一次运用技术解构新型犯罪的探索[J]. 苏州大学学报(哲学社会科学版), 2019, 40(6): 69-76. Google Scholar
[4]	强澜. 基于社交网络的暴力语言检测研究[D]. 太原: 中北大学, 2020. Google Scholar
[5]	鲁倪佳. 面向社交媒体的网络欺凌检测技术研究[D]. 杭州: 杭州电子科技大学, 2020. Google Scholar
[6]	俞梅容. 互联网时代的网络语言暴力分析[J]. 传播与版权, 2018(12): 172-173, 180. Google Scholar
[7]	CHATZAKOU D, LEONTIADIS I, BLACKBURN J, et al. Detecting Cyberbullying and Cyberaggression in Social Media[J]. ACM Transactions on the Web, 2019, 13(3): 1-51. Google Scholar
[8]	AGRAWAL S, AWEKAR A. Deep Learning for Detecting Cyberbullying across Multiple Social Media Platforms[M]//CRESTANI F. Advances in Information Retrieval. Berlin, Germany : Springer. 2018: 141-153. Google Scholar
[9]	DADVAR M, ECKERT K. Cyberbullying Detection in Social Networks Using Deep Learning Based Models; A Reproducibility Study[J]. Computation and Language, 2018, 12: 245-255. Google Scholar
[10]	VAN HEE C, JACOBS G, EMMERY C, et al. Automatic Detection of Cyberbullying in Social Media Text[J]. PLoS One, 2018, 13(10): e0203794. doi: 10.1371/journal.pone.0203794 CrossRef Google Scholar
[11]	李生. 自然语言处理的研究与发展[J]. 燕山大学学报, 2013, 37(5): 377-384. doi: 10.3969/j.issn.1007-791X.2013.05.001 CrossRef Google Scholar
[12]	赵雅欣, 郑明洪, 石林鑫, 等. 面向电力审计领域的两阶段短文本分类方法研究[J]. 西南大学学报(自然科学版), 2020, 42(10): 1-7. Google Scholar
[13]	龚静, 李英杰, 黄欣阳. 基于统计词典和特征加强的多语言文本分类[J]. 西南师范大学学报(自然科学版), 2018, 43(9): 45-50. Google Scholar
[14]	艾瑞数据. PC-Web社交网络指数[EB/OL]. (2021-2-13)[2021-2-13]. https://index.iresearch.com.cn/new/#/pc?cid=3&csid=0. Google Scholar
[15]	EMMERY C, VERHOEVEN B, PAUW G, et al. Current Limitations in Cyberbullying Detection: On Evaluation Criteria, Reproducibility, and Data Scarcity[J]. Language Resources and Evaluation, 2020, 11: 1-37. doi: 10.1007/s10579-020-09509-1 CrossRef Google Scholar
[16]	AYYADEVARA V K. Word2Vec[M]//Pro Machine Learning Algorithms. Berkeley, CA: Apress, 2018: 167-178. Google Scholar
[17]	杨剑锋, 乔佩蕊, 李永梅, 等. 机器学习分类问题及算法研究综述[J]. 统计与决策, 2019, 35(6): 36-40. Google Scholar
[18]	洪巍, 李敏. 文本情感分析方法研究综述[J]. 计算机工程与科学, 2019, 41(4): 750-757. doi: 10.3969/j.issn.1007-130X.2019.04.024 CrossRef Google Scholar
[19]	李静梅, 孙丽华, 张巧荣, 等. 一种文本处理中的朴素贝叶斯分类器[J]. 哈尔滨工程大学学报, 2003, 24(1): 71-74. doi: 10.3969/j.issn.1006-7043.2003.01.017 CrossRef Google Scholar
[20]	CORTES C, VAPNIK V. Support-Vector Networks[J]. Machine Learning, 1995, 20(3): 273-297. Google Scholar
[21]	杭立, 车进, 宋培源, 等. 基于机器学习和图像处理技术的病虫害预测[J]. 西南大学学报(自然科学版), 2020, 42(1): 134-141. Google Scholar
[22]	JOACHIMS T. Text Categorization with Support Vector Machines: Learning with many Relevant Features[C]//European Conference on Machine Learning. Heidelberg, Berlin: Springer, 2005: 137-142. Google Scholar
[23]	HOCHREITER S, SCHMIDHUBER J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780. doi: 10.1162/neco.1997.9.8.1735 CrossRef Google Scholar
[24]	王伟, 吴芳. 基于注意机制和循环卷积神经网络的细粒度图像分类算法[J]. 西南师范大学学报(自然科学版), 2020, 45(1): 48-56. Google Scholar
[25]	林燕榕, 张怡, 刘迪, 等. 基于肾病专科电子病历构建肾病医学知识图谱[J]. 西南大学学报(自然科学版), 2020, 42(11): 52-58. Google Scholar

Access History

通讯作者: 陈斌, bchen63@163.com

1.
沈阳化工大学材料科学与工程学院沈阳 110142

Figures(6) / Tables(8)

Export Citation

PDF

XML

Article Metrics

Article views(3789) PDF downloads(334) Cited by(0)

Access History

Other Articles By Authors

on this site
on Google Scholar

HTML

网络欺凌语言是指在社交平台上发表的针对个人或群体的攻击性言论，其攻击性多表现为谩骂、诋毁和嘲笑等^[1-6]. 这类语言的提取、甄别工作一般归自然语言处理领域，而自然语言表述的灵活性、无规律性，使得网络欺凌语言常常难以被发现，从而难以被及时处理. 在网络信息量呈爆炸式增长的现在，由平台管理员人工审核用户语言的方式已完全无法胜任网络欺凌语言的检测、分析工作，人工智能和机器学习的引入成为解决这一难题的可行且必要的新型途径.

关于网络欺凌语言，国内外的学者们已开展了大量研究. 石国亮等^[1]对网络欺凌语言的概念、特点进行了总结论述; 在对网络欺凌语言的分析方面，刘文宇等^[2]侧重从语言学角度对欺凌语言进行分析，朱嘉珺^[3]提出了大数据技术对网络侵害防治的探索; 在对网络语言的检测方面，强澜^[4]从新浪微博搜集了部分数据，并进行了多次迭代的数据处理，然后建立分类模型以达到检测攻击性语言的目的. 鲁倪佳^[5]构建了一个网络欺凌公开数据集，并引入了卷积神经网络进行分类，同时研究了数据集平衡问题的解决办法. 文献[7-9]借助半人工的方式从twitter等社交平台上爬取数据并建立数据集，然后对数据集进行分析，最后通过机器学习或深度学习的方法建立分类模型，再用分类模型检测评价数据集，达到检测出网络欺凌语言的目的.

目前学界研究网络欺凌语言时使用的数据集大多来源于英文数据，少量来自其他语种，如Van Hee C等^[10]研究了荷兰语的网络欺凌语言检测方法. 中文研究相对较少，因为中文处理过程中存在一词多义、词向量预训练等问题^[11]. 为了解决这些问题，赵雅欣等^[12]使用哈工大的分词与停用词表，在数据预处理阶段解决了分词问题; 龚静等^[13]则是研究多语言统一训练分类模型. 由于我国网民数量庞大，社交平台的网络发言具备了大数据特征，欺凌语言也具备了大数据特征. 在这种背景下，要想和谐网络社区氛围、净化评论语言环境，就必须对社交平台上的网络欺凌语言进行有效的检测与分析.

本文首先构建一个经过人工标注了的中文网络欺凌语言数据集，然后使用基于机器学习与深度学习的方法训练分类模型，并对分类结果进行深入分析. 实验表明，基于深度学习的分类模型效果最佳，结果分析能够挖掘出用户在评论字数、用户等级、发言楼层、评论时间等方面的数据特征.

1. 建立数据集

1.1. 初始数据的获得与清洗

根据艾瑞数据的社交平台使用人数排行报告^[14]，本文选取了排名靠前的百度贴吧、知乎、豆瓣、新浪微博等十几个常见的社交平台，采用后羿采集器爬取到185.87万条用户评论，构建了初始数据集. 因爬虫软件获取的数据有许多冗余错乱信息，故本文采用python编写的程序进行数据清洗. 首先，删除大量异常值如空值、属性缺失数据、重复爬取数据等，得到115.51万条评论，作为网络欺凌语言的分析样本集. 随后为了进一步筛选优质数据以便挑选人工标注样本，本文对评论内容进行去重，以及删除过长与过短的评论. 其中，将过长或过短评论定义为：将所有评论按其长度进行排序后，首尾两端共占20%的评论. 最后得到86.24万条评论，可从中抽取样本组成网络欺凌语言的分类训练样本集.

1.2. 分类样本集构建

对网络欺凌语言的检测是一种经典的文本分类问题. 在文本分类问题中，正向样本的数量过少时，分类模型的效果将不明显^[15]，为了对比含有网络欺凌语言的攻击性评论和不包含网络欺凌语言的正常评论，本文从样本集中随机选取了正向样本和负向样本各3000条左右，通过人工标注的方法，建立了网络欺凌语言分类样本集. 部分经过清洗标注后的样本数据集如表 1所示.

表中“是否攻击性评论”为人工进行的标注. 通过输入大量经过标注的训练样本进行训练，分类模型能够根据学习到的知识来自动化处理无标注的样本.

2. 分类模型

网络欺凌语言样本表现为自然语言形式，而分类模型无法直接处理自然语言，因而需要将文字转化为向量形式，即词向量^[11]. Word2vec是单词向量化的重要方法之一，可以根据给定的语料库，通过优化后的训练模型快速有效地将词语表示为矩阵形式，训练方法分别为连续词袋模型CBOW(Continuous Bag-of-Words)模式和跳字模型Skip-gram模式^[16]. CBOW模式通过原始语句推测目标字词，比较适合小型数据库，而Skip-gram模式从目标字词推测原始语句，在大型语料库中表现得更好. 鉴于本文需要对大量的评论词语进行分类，因此我们采用Skip-gram模式进行训练. 分类问题可以采用的模型很多，其中朴素贝叶斯与支持向量机是机器学习中经典的算法^[17]，而长短期记忆网络是深度学习中针对股票、文本这样的序列数据提出的模型，很适合用来解决文本分类问题^[18].

2.1. 朴素贝叶斯(Naive Bayes，NB)

朴素贝叶斯^[19]是常见的分类模型之一，适用于文本分类问题. 对于中文自然语言处理领域而言，朴素贝叶斯算法将词向量中每一个元素看作符合独立性假设的一个特征，对训练集所有特征拟合后，即可通过测试文本的特征判断其属性. 例如：对于评论X，有x∈(x₁，x₂，…，x_n)，其中x_n为词向量的特征，而类别为y∈(0，1)，0表示正常评论，1表示分类模型识别出的攻击性评论. 算法的思想为：根据人工标注的语句构建训练集以及学习训练集的特征，再在测试集中，通过其特征计算评论属于分类(0，1)的概率，取其中较大者作为分类结果.

概率计算公式为

其中，y_k为输出类别(y₀，y₁)，P(y_k|x)为该评论属于y_k分类的概率，P(x_i|y_k)为在y_k分类条件下x_i的概率.

2.2. 支持向量机(Support Vector Machine，SVM)

SVM是由模式识别中广义肖像算法发展而来的分类器，基于SVM算法的分类策略可以将数据集分类成明确的多个集合^[20-22]，SVM通过某种事先选择的非线性映射将输入向量x映射到一个高维特征空间z，在这个空间中构造最优分类超平面，从而使正例和反例样本之间的分离界限达到最大. 构造出的决策函数为

其中，a与b为偏置系数，x_i与y_i为训练数据，K为自定义的核函数.

SVM模型中有2个重要的参数，C与γ. 其中，C为惩罚系数，即对误差的宽容度，C设置得过高容易出现过拟合现象，C设置得过低会出现欠拟合现象，二者均会导致模型泛化能力变差，效果不够理想; γ为核函数使用高斯函数时其中的重要参数，γ决定了低维样本到高维的映射，γ越大，支持向量越少，γ越小则支持向量越多，因此它影响着模型训练测试的速度. 本文通过网格搜索，在保证C与γ相互独立的前提下，寻找全局最优解，设置C为13，γ为0.8.

2.3. 长短期记忆网络(Long Short-term Memory，LSTM)

长短期记忆网络^[23]是基于循环神经网络(Recurrent Neural Network，RNN)的一种改进网络，广泛应用于各类问题中^[24-25]，针对RNN对于长期记忆遗忘的问题，LSTM在细胞中设置了不同的“门”结构，遗忘门结构(公式3)决定在传递到下一个细胞时隐层中的信息是保留还是遗忘，更新门(公式4)对c_t进行了更新，c_(t-1)中的信息借由f_t进行有选择的记忆，输出门(公式5)在c_t已被更新后，再用一个激活函数决定输出的内容，然后通过tanh缩放，即完成一个时间序列的输出.

上述公式中，f_t，i_t与o_t为各门的神经元，W_if与b_if为神经网络的权重，g_t为新信息，c_t与c_(t-1)为当前与前一个的细胞状态，x_t为输入，h_t与h_t-1为当前与前一个的隐层状态和输出.

5. 结论

本文从常见的社交平台中收集了大量用户评论，清洗后从中选取样本人工标注形成了网络欺凌语言数据集. 根据任务特点，选用朴素贝叶斯、支持向量机与长短期记忆网络作为分类模型进行了实验，其中长短期记忆网络综合效果最好. 随后使用长短期记忆网络处理未标注的内容，并对结果进行了分析：在3个百度贴吧数据集中，模型分类结果与人工观察结论高度相符，一定程度上验证了模型的可靠性; 在全部数据集中，攻击性评论相对于正常评论表现出评论字数较少、用户等级较低、评论时间更离散等分布特征. 但是本文仅考虑了传统二分类问题，未对网络欺凌语言的进一步划分作研究，因此下一步考虑使用细粒度情感分析方法，对网络欺凌现象的成因、发展等因素做深入剖析，从而寻求更有效的检测分析网络欺凌语言的方法.

Figure (6) Table (8) Reference (25)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

Message Board

Detection and Analysis of Cybernetics Bullying Language on Common Chinese Social Network Platforms