基于最短依存路径和BERT的关系抽取算法研究

陈珂; 陈振彬

doi:10.13718/j.cnki.xsxb.2021.11.008

基于最短依存路径和BERT的关系抽取算法研究

陈珂,
陈振彬

广东石油化工学院计算机学院，广东茂名 525000

基金项目: 国家自然科学基金项目(61172145)；广东省自然科学基金项目(2018A030307032)；广东省普通高校重点科研平台和项目(2020ZDZX3038)

详细信息

作者简介:
陈珂，教授，硕士，主要从事自然语言处理研究 .

中图分类号: TP391.1

Entity Relation Extraction Based on Shortest Dependency Path and BERT

College of Computer, Guangdong University of Petrochemical Technology, Maoming Guangdong 525000, China

摘要: 深度学习模型依靠文本单一的词特征、位置特征在文本关系抽取任务中取得了不错的效果. 但以往研究未能充分理解句子语义，数据稀疏和噪声传播问题对分类模型的影响依旧存在. 随着注意力机制和预训练语言模型的研究不断深入，BERT(bidirectional encoder representations from transformers)预训练模型为自然语言处理任务提供了更好的词句表示. 因此，该文提出结合BERT预训练语言模型获得更具语义表现力的特征表示，同时使用依存句法分析提取出最短依存路径作为额外信息输入分类模型，降低了噪声词汇对分类模型的影响. 该算法在中文人物关系抽取数据集和SemEval2010 Task 8语料集上进行对比实验，最终实验效果F值可达到0.865.
- 关系抽取 /
- 依存句法分析 /
- 最短依存路径 /
- BERT
Abstract: The deep learning model relies on the single word feature and position feature of the text to achieve good results in the task of text relation extraction. However, in the existing research results, sentence semantics are not fully understood, and the impact of data sparsity and noise propagation on the classification model is still serious. With the development of attention mechanism and pretraining language model, Bert (bidirectional encoder representations from transformers) pretraining model provides a better way to express words and sentences for natural language processing tasks. On the other hand, dependency parsing is used to extract the shortest dependency path as additional information input to the classification model to reduce the impact of noisy words on the classification model. The method of this paper is to conduct a comparative experiment on Chinese character relationship extraction dataset and semeval2010 task 8 corpus, and the final experimental effect F value can reach 0.865.
- relation extraction /
- dependency parsing /
- shortest dependency path /
- BERT .

图 1 依存句法结构图

下载: 全尺寸图片幻灯片

图 2 依存句法树

下载: 全尺寸图片幻灯片

图 3 BERT模型结构图

下载: 全尺寸图片幻灯片

图 4 Transformer编码器结构图

下载: 全尺寸图片幻灯片

图 5 DS-BiLSTM模型结构图

下载: 全尺寸图片幻灯片

图 6 中英文语料效果对比图

下载: 全尺寸图片幻灯片

图 7 DS-BiLSTM模型不同样本效果图

下载: 全尺寸图片幻灯片

表 1 依存句法关系标注集

符号	依存关系	例
SBV	主谓关系	我做实验(我←做)
VOB	动宾关系	我做实验(做→实验)
FOB	前置宾语	他什么文献都看(文献←看)
IOB	间宾关系	我送她本书(送→她)
ATT	定中关系	漂亮的景色(漂亮←景色)
ADV	状中关系	非常优秀(非常←优秀)
CMP	动补结构	做完了实验(做→完)
COO	并列关系	小明和小红(小明→小红)
POB	介宾关系	在盒子里(在→里)
DBL	兼语	我请我吃饭(请→我)
LAD	左附加关系	大山和大海(和←大海)
RAD	右附加关系	兄弟们(兄弟→们)
HER	核心关系	我送她一本书(→送)
WP	标点	.

下载: 导出CSV

表 2 人物关系抽取语料集数据统计

序号	关系类型	频次	占比/%
0	未知	0	0
1	父母	12 630	12.63
2	夫妻	15 312	15.31
3	师生	9 450	9.45
4	兄弟姐妹	9 360	9.36
5	合作	8 265	8.27
6	情侣	10 923	10.92
7	祖孙	6 439	6.44
8	好友	8 975	9.00
9	亲戚	9 388	9.39
10	同门	5 671	5.67
11	上下级	3 317	3.32

下载: 导出CSV

表 3 Semeval-2010语料集数据统计

关系	训练集		测试集
关系	频次	占比/%	频次	占比/%
Cause-Effect	1 003	12.5	328	12.1%
Instrument-Agency	504	6.3	156	5.7
Product-Producer	717	9.0	231	8.5
Content-Container	540	6.8	192	7.1
Entity-Origin	716	9.0	258	9.5
Entity-Destination	845	10.6	292	10.8
Component-Whole	941	11.8	312	11.5
Member-Collection	690	8.6	233	8.6
Message-Topic	634	7.9	261	9.6
Other	1 410	17.6	454	16.7

下载: 导出CSV

表 4 Transformer编码器参数设置

参数	参数描述	取值
d_model	Dimensionality of the word vectors	400
head_num	Number of heads in multi-head self-attention	8
encoder_num	Number of encoder components	1
hidden_dim	Hidden dimension of feed forward layer	400

下载: 导出CSV

表 5 LSTM分类模型超参数设置

参数	参数描述	取值
Epoch	The times of training on the whole dataset	300
BatchSize	Number of samples selected ineach training	128
Maxlength	The length of the sentence matrix	100
learning_rate	Convergence rate of objective function	0.001
EMBEDDING_DIM	Dimensionality of the word vectors	400

下载: 导出CSV

表 6 中文人物关系抽取模型效果

模型	准确率	召回率	F值
Word2vec+BiLSTM	0.793	0.823	0.807
BERT+LSTM	0.812	0.835	0.823
BERT+BiLSTM	0.846	0.852	0.837
BERT+DS-BiLSTM	0.857	0.849	0.852

下载: 导出CSV

表 7 英文Semv2010关系抽取模型效果

模型	准确率	召回率	F值
Word2vec+BiLSTM	0.811	0.828	0.819
BERT+LSTM	0.843	0.850	0.846
BERT+BiLSTM	0.867	0.856	0.861
BERT+DS-BiLSTM	0.871	0.860	0.865

下载: 导出CSV

表 8 不同模型的关系抽取F值

模型	中文语料集	英文语料集
APT	0.588	0.597
SVM	0.693	0.706
CNN	0.800	0.825
CNN-ATT	0.825	0.813
LSTM	0.827	0.852
LSTM-ATT	0.841	0.843
BiLSTM-ATT	0.843	0.840
Multi-BiLSTM	0.835	0.859
DS-BiLSTM(Our)	0.852	0.865

下载: 导出CSV

[1]	王伟, 吴芳. 基于注意机制和循环卷积神经网络的细粒度图像分类算法[J]. 西南师范大学学报(自然科学版), 2020, 45(1): 48-56. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xsxb.2020.01.009
[2]	张敏军, 华庆一, 贾伟, 等. 基于深度神经网络的个性化推荐系统研究[J]. 西南大学学报(自然科学版), 2019, 41(11): 104-109. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XNND201911014.htm
[3]	JIANG J, ZHAI C X. A systematic exploration of the feature space for relationextraction[C]//Proceedings of Human Language Technologies: the Conferenceof the North American Chapter of the Association for ComTonal Linguistics. 2007: 113-120.
[4]	奚斌, 钱龙华, 周国栋, 等. 语言学组合特征在语义关系抽取中的应用[J]. 中文信息学报, 2008, 22(3): 44-49, 63. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-MESS200803008.htm
[5]	ZHANG P, LI W J, WEI F R, et al. Exploiting the Role of Position Feature in Chinese Relation Extraction[C]//Proceeding of International Conference on LanguageResources and Evaluation, 2008: 1-5.
[6]	甘丽新, 万常选, 刘德喜, 等. 基于句法语义特征的中文实体关系抽取[J]. 计算机研究与发展, 2016, 53(2): 284-302. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201602006.htm
[7]	李明耀, 杨静. 基于依存分析的开放式中文实体关系抽取方法[J]. 计算机工程, 2016, 42(6): 201-207. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC201606037.htm
[8]	KAMBHATLA N. Combining Lexical, Syntactic, and Semantic Features with Maximum Entropy Models for Information Extraction[C]//The Association for Computational Linguistics, 2004: 178-181.
[9]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need[C]//Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems(NIPS), 2017: 5998-6008.
[10]	DEVLIN J, CHANG W M, LEE K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics(NAACL), 2019: 4171-4186.
[11]	ALT C, HVBNER M, HENNIG L. Fine-Tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction [C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy. Stroudsburg, PA, USA: Association for Computational Linguistics, 2019: 1388-1398.
[12]	SHI P, LIN J. Simple BERT Models for Relation Extraction and Semantic Role Labeling[EB/OL]. 2019.
[13]	ŞAHiN G G, EMEKLiGiL E, ARSLAN S, et al. Relation Extraction via One-Shot Dependency Parsing on Intersentential, Higher-Order, and Nested Relations[J]. Turkish Journal of Electrical Engineering and Computer Sciences, 2018, 26(2): 830-843.
[14]	NINGTHOUJAM D, YADAV S, BHATTACHARYYA P, et al. RelationExtraction between the Clinical Entities Based on the Shortest Dependency Path Based LSTM[EB/OL]. 2019: arXiv: 1903. 09941[cs. CL]. https://arxiv.org/abs/1903.09941
[15]	温政, 段利国, 李爱萍. 基于最短依存路径与神经网络的关系抽取[J]. 计算机工程与设计, 2019, 40(9): 2672-2676, 2696. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-SJSJ201909047.htm
[16]	CULOTTA A, SORENSEN J. Dependency Tree Kernels for Relation Extraction [C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics-ACL'04. July 21-26, 2004. Barcelona, Spain. Morristown, NJ, USA: Association for Computational Linguistics, 2004: 423-429.
[17]	ZHAO S B, GRISHMAN R. Extracting Relations with Integrated Information Using Kernel Methods[C]//The Association for Computer Linguistics(ACL), 2005: 419-426.
[18]	ZENG D J, LIU K, LAI S W, et al. Relation Classification via Convolutional Deep Neural Network[C]//The Association for Computer Linguistics(ACL), 2014: 2335-2344.
[19]	ZHOU P, SHI W, TIAN J, et al. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification [C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Berlin, Germany. Stroudsburg, PA, USA: Association for Computational Linguistics, 2016: 207-212.
[20]	XU Y, MOU L L, LI G, et al. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths [C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal. Stroudsburg, PA, USA: Association for Computational Linguistics, 2015: 1785-1794.

图( 7) 表( 8)

计量

文章访问数: 1485
HTML全文浏览数: 1485
PDF下载数: 248
施引文献: 0

全文HTML

近年来人工智能技术发展迅速，智能算法已广泛应用于各领域，其中智能技术的实现多依赖于大规模、高质量和宽领域的结构化知识库^[1-2]. 传统的知识库构建主要依赖手工，通过该方式构建的知识库扩展性较差、规模较小且具有局限性，因此，如何自动化构建知识库成为近年的研究热点. 从大量非结构化数据中抽取出结构化数据，成为构建大型知识库的关键技术之一. 从自然文本中自动提取出多个实体并判别其关系类型是关系抽取任务的目的. 目前，已有关系抽取的方法大致可归纳为：基于模式匹配的关系抽取方法、基于词典的关系抽取方法、基于文本语法和语义的关系抽取方法、基于机器学习的关系抽取方法及混合抽取方法. 目前，基于机器学习的关系抽取方法的核心思想是使用表示学习等方法，组织和衍生特征向量，通过提取自然语言文本中的特征，组织成可被深度神经网络或者其他学习网络接受的张量形式进行分类器的训练. 特征的组织和模型的优化是关系抽取方法的关键步骤，也是影响分类准确率的重要因素.

在以往研究中，普遍采用基于Skip-gram模型和CBOW模型的单一字向量和词向量作为文本特征，再结合具体任务训练语料的特点，构建特定任务的概率模型. 这种方法虽然效果不错，但噪声传播问题仍是关系抽取任务要解决的难点. 通过构建特定任务的模型能在一定程度上解决该问题，但局限性成为进一步提升抽取效果的瓶颈. 另一方面，传统的预训练语言模型，虽然能在一定程度上反映文本字词语义，但其表示能力受滑动窗口的限制，并不能充分表示上下文语义，存在一词多义现象. 在特定语境下，传统的字词特征仍有改进空间.

依存句法分析是自然语言处理领域的分析方法之一. 基于转移和基于图的依存分析方法是依存句法分析的两个主要思路. 基于转移的依存分析方法是构建一条从初始转移状态到终结状态的转移动作序列并逐步生成依存树；基于图的依存分析方法则将文本序列转换为有向完全图，在图中求解最大生成树问题. 通过依存句法分析能简洁反映文本实体词之间的直接或间接的关联关系，以降低噪声词对训练分类模型的影响，更好地解决噪声传播问题；同时，依存句法分析能衍生更丰富的实体和语法特征，能更好地挖掘文本语义.

目前注意力机制和语言模型的不断发展为自然语言处理任务提供了更好语义表示方案. 基于Self-Attention机制的Transfomers被提出后，以其为基础的BERT(bidirectional encoder representations from Transformers)预训练模型也应运而生. BERT能更好地综合考虑文本的上下语境，增强了模型的泛化能力，充分描述了字符级、词级、句子级甚至句间关系的特征，在自然语言处理领域引起了重大的反响，在GLUE(多种英语语言理解任务的集合，包括文本蕴涵、情感分析和语法判断等)任务中取得不错的分数，充分证明BERT强大的语义表示能力. 本研究提出了一种基于BERT模型并使用最短依存路径特征的文本实体关系抽取模型. 最短依存路径特征从句法结构的角度筛选出对于句中实体有较大意义的信息；BERT模型能更充分考虑文本上下文语境，在句子语义表示方面更加优秀. 本文主要研究内容如下：

(1) 使用句法依存分析获得依存句法树，对依存句法树进行剪枝等处理并获得实体间的最短路径. 对路径上特定词性的特征词赋予较高权重值，使文本特征更具区分性，并且降低噪声词的影响.

(2) 利用BERT模型对文本进行特征提取和特征表示作为下游NLP任务输入的部分输入特征，经过微调后的BERT模型将更适用于当前语料并具备更好的语义信息.

(3) 在下游任务的分类模型LSTM上加入注意力机制，使得模型训练过程中能更好地注意到重要的特征词，更好地提升关系抽取模型的分类能力.

1. 相关工作

在已有的显示关系抽取研究中，基于特征向量的关系抽取方法占绝大多数. 但该方法非常依赖文本特征的提取，所提取的特征质量将直接影响最终的抽取效果，因此基于特征向量的关系抽取的关键在于文本提取和组织有用的语义信息.

丰富的语义和语法特征可以更好地提升关系抽取任务的分类效果. Jiang等^[3]利用统一特征空间对不同特征及其对关系抽取效果的影响进行研究，实践证明通过组合基本特征能有效提高关系抽取的效果；奚斌等^[4]通过对词法、语法和语义等特征进行多种组合，同样也证明了组合特征能有效提高关系抽取性能；Zhang等^[5]则通过利用实体之间的多种位置关系并将其特征融合到特征集中，在ACE2005公开数据集中进行实验，证明该特征更好地改善了关系抽取的效果.

但基于特征向量的关系抽取方法中大多仅仅考虑文本词特征，句子的句法和语义特征并没有被更好地挖掘. 已有的研究表明，动词对于文本语义的理解有较大帮助，提升了模型效果. 甘丽新等^[6]围绕句中动词提出“最近动词依赖特征”，并使用依存句法分析进行关系抽取任务；李明耀等^[7]在依存分析基础上把动词分为3类：动词作谓语、动词短语作谓语、复杂动词作谓语，再分别对这3种情况进行处理和计算，抽取出实体关系. 这些方法均取得了较好的效果.

注意力机制在自然语言处理领域和图像处理领域已有诸多应用. 例如，Kambhatla等^[8]已经在关系抽取任务中使用注意力机制，提取文本词特征、位置特征和词性特征后，使用卷积神经网络，并加入基于注意力机制的上下文选择器和MLP层，最终取得不错的效果.

针对机器翻译任务中的难点，文献[9]基于注意力机制提出一种被称为“Transformer”的网络结构. Transformer不同于在自然语言处理任务中广泛使用的循环神经网络和Encoder-Decoder结构，它放弃了递归结构而使用注意力机制去刻画输入与输出之间的关系. Transformer并没有使用递归结构，使其能够并行计算，训练速度方面将更优于循环神经网络，另外，Transformer结构中包含多个Multi-Head Attention(多头注意机制)层，能更好地考虑单词的上下文及其语境.

在文献[9]基础上，文献[10]提出了一种双向的Transfomer结构(BERT). 目前，在关系抽取任务中应用BERT模型的研究相对较少，但远程监督的关系抽取中使用该模型居多. 例如，ALT C等^[11]人使用BERT模型在NYT数据集上进行远程监督任务，并与较为流行的PCNN+ATT关系抽取分类模型进行对比实验，最终取得不错的效果. 另外，在非远程监督的关系抽取中，Shi等^[12]使用简单的BERT模型为下游的关系抽取任务提取文本词特征，最终实验分类精确率达到73.3%.

4. 结束语

通过结合依存句法分析，提取句子中的最短依存序列作为额外信息，另外对于原序列根据一定规则进行过滤，尽可能排除噪声，并且使用BERT模型挖掘文本深层语言特征，进行更有效的表示学习. 实验证明，本研究方法对于关系抽取中噪声传播的问题有一定的改善.

本研究发现，按本文方法依旧存在弊端，最短依存序列中的语义信息不一定包含实体间关系的语义特征词. 一方面，如何优化和调整依存句法树，使其有效信息能更好地被抽取出来时下一步研究工作的方向；另一方面，如何更好地利用和衍生依存句法分析得到的最短依存路径特征是解决噪声传播问题的关键，也是目前关系抽取领域的重要课题.

依存句法分析单纯从句法层面对文本进行理解和分析，而语义角色标注能更好地识别文本中实体名词之间复杂的语义联系，未来的优化方向将结合语义角色标注进行展开.

参考文献 (20)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于最短依存路径和BERT的关系抽取算法研究

广东石油化工学院计算机学院，广东茂名 525000

作者简介:
陈珂，教授，硕士，主要从事自然语言处理研究 .

Entity Relation Extraction Based on Shortest Dependency Path and BERT

College of Computer, Guangdong University of Petrochemical Technology, Maoming Guangdong 525000, China

计量

基于最短依存路径和BERT的关系抽取算法研究

作者简介: 陈珂，教授，硕士，主要从事自然语言处理研究
广东石油化工学院计算机学院，广东茂名 525000

English Abstract

Entity Relation Extraction Based on Shortest Dependency Path and BERT

全文HTML

2.1. 任务定义

2.2. 依存句法分析

2.3. 基于BERT的表示学习

2.4. 基于依存句法的关系抽取模型

3.1. 数据预处理

3.2. 超参数

3.3. 实验设置

3.4. 实验结果与分析

目录

留言板

基于最短依存路径和BERT的关系抽取算法研究

广东石油化工学院 计算机学院，广东 茂名 525000

作者简介: 陈珂，教授，硕士，主要从事自然语言处理研究 .

Entity Relation Extraction Based on Shortest Dependency Path and BERT

College of Computer, Guangdong University of Petrochemical Technology, Maoming Guangdong 525000, China

计量

出版历程

基于最短依存路径和BERT的关系抽取算法研究

作者简介: 陈珂，教授，硕士，主要从事自然语言处理研究 广东石油化工学院 计算机学院，广东 茂名 525000

English Abstract

Entity Relation Extraction Based on Shortest Dependency Path and BERT

全文HTML

2.1. 任务定义

2.2. 依存句法分析

2.3. 基于BERT的表示学习

2.4. 基于依存句法的关系抽取模型

3.1. 数据预处理

3.2. 超参数

3.3. 实验设置

3.4. 实验结果与分析

目录

广东石油化工学院计算机学院，广东茂名 525000

作者简介:
陈珂，教授，硕士，主要从事自然语言处理研究 .

作者简介: 陈珂，教授，硕士，主要从事自然语言处理研究
广东石油化工学院计算机学院，广东茂名 525000