终端用户编程的自然语言语义解析方法研究

高灵霞; 孙凤兰

doi:10.13718/j.cnki.xsxb.2020.05.022

终端用户编程的自然语言语义解析方法研究

高灵霞¹,
孙凤兰²

1.
重庆电子工程职业学院人工智能与大数据学院, 重庆 401331

2.
重庆邮电大学理学院, 重庆 400065

基金项目: 重庆市科委基金项目(cstc2013jcyjA40018)

详细信息

作者简介:
高灵霞(1978-), 女, 硕士, 副教授, 主要从事人工智能及信息安全研究 .

中图分类号: TP391

On Natural Language Semantic Analysis Method of End User Programming

Ling-xia GAO¹,
Feng-lan SUN²

1.
Institute of Artificial Intelligence and Big Data, Chongqing College of Electronic Engineering, Chongqing 401331, China

2.
School of Science, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

摘要: 针对现有用户编程语义解析方法在小注释数据集条件下无法有效地解决复杂模型的问题，提出了一种面对终端用户编程的自然语言语义解析方法.该方法将自然语言命令映射到小批注释数据下训练的大型异构框架集合中，语义解析方法由语义角色标记、旋转、动作候选实例生成和相关性排名组成，使用语义角色标记、分布语义几何特征和语义旋转的组合，解决开放词汇设置中的语义匹配问题.实验结果表明，该文方法能够有效实现自然语言的词汇解析，且性能优于现有方法.
- 语义解析 /
- 自然语言 /
- 语义角色标记 /
- 动作候选实例生成 /
- 旋转
Abstract: Aiming at the problem that the existing user programming semantic analysis method could not effectively solve the complex model under the condition of small annotation dataset, a natural language semantic analysis method for end user programming was proposed. This method maps natural language commands to a large heterogeneous framework set trained with small annotated data. The semantic parsing method consists of semantic role markers, rotation, action candidate instance generation and correlation ranking. It uses the combination of semantic role markers, distributed semantic geometric features and semantic rotation to solve the semantic matching problem in open vocabulary setting. The experimental results show that the proposed method can effectively implement natural language vocabulary parsing, and its performance is better than the existing methods.
- semantic analysis /
- natural language /
- semantic role tagging /
- action candidate instance generation /
- pivoting .

图 1 本文语义解析方法的语义处理模型

下载: 全尺寸图片幻灯片

图 2 本文语义解析方法过程

下载: 全尺寸图片幻灯片

图 3 “将1000元人民币兑换成欧元”旋转过程

下载: 全尺寸图片幻灯片

图 4 旋转流程图

下载: 全尺寸图片幻灯片

表 1 自然语言实例及描述

自然语言命令(c)	动作实例描述(d)	一组命令对象(o₁，o₁，…，o_k)
将1000元人民币兑换成欧元	交换	(1000元，人民币，欧元)
发送work.doc到teacher@163.com	发送	(questions.doc，sandra @ andrade.com)
在百度图库上找到月球的图像	查找图像	(图片，月球，百度图库)
将file.txt从汉语翻译成英语.	翻译	(file.txt，汉语，英语)

下载: 导出CSV

表 2 识别命令对象的依赖性树规则

条件	结果(CO)
φ(E)=(pobj\|dobj\|nsub)	E_origin
φ(E)=(poss\|amod)	E_origin+E_dest

下载: 导出CSV

表 3 数据集中存在的动作框架示例

动作名称	提供商	动作框架
Create a status message	Facebook	status message
Currency converter	null	from amount，from，to
Open garage door	Garageio	Which door
Create an issue	GitHub	repository，title，body
Create new contact	Google	full name，email...

下载: 导出CSV

表 4 不同旋转函数和分类器条件下的对比结果

分类器	脚本	TF/IDF		最近的邻居
分类器	脚本	召回	MRR	召回	MRR
RF	Seq2Seq	0.659 4	0.287 8	0.682 5	0.303 8
RF	本文	0.777 8	0.393 2	0.855 1	0.432
SVM	Seq2Seq	0.429 8	0.190 1	0.360 8	0.120 7
SVM	本文	0.622 4	0.297 8	0.623 2	0.218 7
MLP	Seq2Seq	0.479 8	0.206 3	0.394 4	0.132 3
MLP	本文	0.701 5	0.317 1	0.729 2	0.251 4

下载: 导出CSV

[1]	褚晓敏, 朱巧明, 周国栋.自然语言处理中的篇章主次关系研究[J].计算机学报, 2017, 40(4):842-860. doi: http://d.old.wanfangdata.com.cn/Periodical/jsjxb201704005
[2]	李新利, 李昕其, 马凯, 等.基于自然语言处理和Office COM组件的电量智能统计分析系统[J].计算机应用与软件, 2017, 34(12):107-110. doi: 10.3969/j.issn.1000-386x.2017.12.020
[3]	奚雪峰, 周国栋.面向自然语言处理的深度学习研究[J].自动化学报, 2016, 42(10):1445-1465. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=D01889322
[4]	YOUNG T, HAZARIKA D, PORIA S, et al.Recent Trends in Deep Learning Based Natural Language Processing[J]. IEEE Computational Intelligence Magazine, 2018, 13(3):55-75. doi: 10.1109/MCI.2018.2840738
[5]	MALDONADO E D S, SHIHAB E, TSANTALIS N.Using Natural Language Processing to Automatically Detect Self-Admitted Technical Debt[J]. Software Engineering, IEEE Transactions on, 2017, 43(11):1044-1062. doi: 10.1109/TSE.2017.2654244
[6]	CORONADO E, MASTROGIOVANNI F, VENTURE G.Design of a Human-Centered Robot Framework for End-User Programming and Applications[M]//ROMANSY 22-Robot Design, Dynamics and Control.Cham:Springer International Publishing, 2018.
[7]	ZAMANIRAD S, BENATALLAH B, BARUKH M C, et al.Programming Bots by Synthesizing Natural Language Expressions into API Invocations[C]//2017 32nd IEEE/ACM International Conference on Automated Software Engineering (ASE).Urbana, IEEE, 2017.
[8]	熊志恒, 闵华松.基于自然语言的分拣机器人解析器技术研究[J].计算机工程与应用, 2017, 53(8):113-119. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjgcyyy201708021
[9]	王恒升, 李熙印.机器人自然语言导航的层叠式条件随机场模型[J].计算机工程与科学, 2017, 39(8):1538-1545. doi: 10.3969/j.issn.1007-130X.2017.08.024
[10]	PARAMASIVAM V, HUANG J, ELLIOTT S, et al.Computer Science Outreach with End-User Robot-Programming Tools[C]//Proceedings of the 2017 ACM SIGCSE Technical Symposium on Computer Science Education-SIGCSE'17.New York: ACM Press, 2017.
[11]	SEFIDGAR Y S, CAKMAK M.End-User Programming of Manipulator Robots in Situated Tangible Programming Paradigm[C]//Companion of the 2018 ACM/IEEE International Conference on Human-Robot Interaction-HRI'18.New York: ACM Press, 2018.
[12]	YOUNG T, HAZARIKA D, PORIA S, et al.Recent Trends in Deep Learning Based Natural Language Processing[Review Article][J]. IEEE Computational Intelligence Magazine, 2018, 13(3):55-75. doi: 10.1109/MCI.2018.2840738
[13]	doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1002/wps.20491 CORCORAN C M, CARRILLO F, FERNÁNDEZ-SLEZAK D, et al.Prediction of Psychosis across Protocols and Risk Cohorts Using Automated Language Analysis[J]. World Psychiatry, 2018, 17(1):67-75.
[14]	EPPE M, TROTT S, FELDMAN J.Exploiting Deep Semantics and Compositionality of Natural Language for Human-Robot-Interaction[C]//2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Daejeon: IEEE, 2016.
[15]	SALES J, HANDSCHUH S, FREITAS A.SemEval-2017 Task 11: End-User Development Using Natural Language[C]//Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017).Vancouver: Association for Computational Linguistics, 2017.

图( 4) 表( 4)

计量

文章访问数: 978
HTML全文浏览数: 978
PDF下载数: 154
施引文献: 0

全文HTML

自然语言处理(Natural Language Processing，NLP)正在经历快速增长，因为其理论和方法越来越多地应用于不同领域，如医学、控制、机器人、人工智能等^[1-3].在行业内，人们需要NLP进行市场分析，网络软件开发就是一种实例. NLP使得终端用户编程的语义分析应用于操作系统任务、智慧家庭的自动化和机器人运动控制等不同的话语领域^[4-5].

目前，大多数终端用户编程语义解析方案已经转移到机器人技术的上下文中解析自然语言命令，文献[6]提出了机器人编程框架Node Primitives(NEP)，旨在为机器人创建可用、灵活和跨平台的终端用户编程接口.文献[7]提出一种机器人编程平台，可动态地将自然语言用户表达式合成为应用程序接口(Application Programming Interface，API)调用.首先，构建一个API知识图来编码和发展API，然后应用NLP、机器学习和实体识别中的技术，通过编程为其结果调用API.文献[8]实现了分拣机器人自然语言解析技术的研究，文献[9]建立机器人自然语言导航的层叠式条件随机场模型，两个文献中的研究都能提高机器人对用户表达意思的理解.文献[10]将功能机器人的终端用户编程工具应用于计算机科学外展环境，能够使得机器人通过触摸屏与人交互，并实现自主导航.针对终端用户编程(End-User Programming，EUP)场景的开放域、大型语法异构测试集合已经出现，可以解决终端用户之间的语义差距，以及软件资源日益增长导致的测试集适用局限性.由于用户终端编程的大多数语义分析器一直在小词汇量和更连贯的话语条件下运行，因此不清楚这些方法如何在高异质性条件下进行推广^[11].

大多数以解释自然语言命令为目标的语义分析器都针对特定的域，集中在小目标框架集的解释上^[12]，这反映在语义解析模型中，该模型在更受限的词汇和句法语义异构条件下进行评估^[13].机器学习是当前语义分析方法的核心^[14]，应用机器学习方法，简单的任务可以用相对较小的数据集来解决，而更复杂的任务需要大规模的注释数据.由于注释数据的生成昂贵且耗时，因此在小注释数据集条件下有效地解决复杂问题的模型是目前关注的热点.

针对以上问题，本文提出了一种面向自然语言的语义解析方法，该方法由分布式语义解析方法和语义旋转启发式方法组成，针对大型异构框架集合，并在小注释数据集的限制下运行.所提方法利用不同分布语义空间上的几何特征，在无监督的情况下生成自然语言项与框架之间的对齐假设.该方法可以在开放/多域词汇表上操作，并且可以从较小的训练集中推广.

1. 语义解析映射

自然语言命令的语义解析包括将自然语言命令映射到来自知识库的正式函数表示，该函数表示在本文工作的上下文中被命名为动作框架，被定义为n元谓词-参数结构，描述了软件系统内的函数接口(或签名).除了命令所引用的动作框架标识之外，映射过程还标识其参数值.本文方法的目标是开发一个模型，将自然语言命令映射到行动框架.

以自然语言命令为例，用语言表达用户的意图：Write to Jack@163.com asking him to take a look at the newspaper today

在该示例中，自然语言命令针对名为发送知识库中存在的电子邮件的特定动作框架，除了识别预期的动作框架外，语义分析器还需要隔离Jack@163.com和take a look at the newspaper today作为参数值，并认识到应该分配哪些动作框架提供的参数(本实例中分别为地址和消息).将动作实例命名为动作调用的实例化，该动作调用描述了动作框架本身及其参数的值.

行动框架：发送电子邮件

提供商：网易邮箱

参数：消息和地址.消息：“take a look at the newspaper today”；地址：Jack@163.com.

映射自然语言到行动框架问题用数学化表示为：设A是由一组k个动作框架(a₁，a₂，…，a_k)组成的知识库(knowledge base，KB)，设a_i=(n_i，l_i，P_i)是A的元素，其中n_i是动作的名称，l_i是动作的提供者(主要对象，与动作相关的服务或功能动作)，P_i是动作参数的集合，a′_i是a_i的实例，保存其参数的值.设c_j是一个自然语言命令，语义上表示目标动作实例a′_j.目标是构建一个模型，给定一组动作框架A和自然语言命令c，返回有序动作实例的列表B.

将上述问题解释为将自然语言命令转换为动作实例，解决这一任务的典型方法是序列到序列(Seq2Seq)机器学习模型，Seq2Seq模型旨在同时提供目标操作框架及其参数值集.然而，该模型解决目标问题的效果并不好，因此本文提出一种语义解析方法，能够有效解决目标问题.

3. 实验结果与分析

本文实验中用到的数据集采用文献[15]中处理自然语言程序设计的数据集，该数据集测试集合在词汇和语法结构方面呈现出高度的可变性，另外，测试集合由每个框架的小训练集组成，需要应用语义解析方法，这些方法可以在小注释数据集上运行.在本文中，使用此测试集来激励和评估语义解析方法.测试集合包含多组自然语言命令以及与Web API对应的关联操作框架和相应的映射.表 3给出了数据集动作存在的动作框架的一些示例.

为了评估所提出的模型，为旋转函数和分类器实例化了不同的实现.旋转函数假设有2种实现：

TF/IDF：旋转函数的一个自然候选者是TDF / IDF加权方案，它将目标操作调整为与查询重叠词汇表的操作，TDF/IDF旋转函数平均将目标操作框架的数量限制为10.

最近邻：将自然语言命令投影到分布式语义空间中时，使用最近邻方法来选择50个最接近的动作框架.这种类型的函数不仅限于词汇重叠，而是扩展它们与由分布矢量模型定义的语义潜在概念的关系.

关于分类，评估了3种学习方法：随机森林(RF)、支持向量机(SVM)和简单的多层感知神经网络(MLP).以不同的方式评估每种学习方法，通过网格搜索识别它们的超参数.本文实验使用通过Google新闻数据集生成的skip-gram模型作为分布空间模型.采用召回率和平均互惠等级(MRR)来对本文方法进行衡量标准，表 4是本文方法与Seq2Seq模型的结果比较.

从表 4中数据可以看出，本文语义解析方法的性能比Seq2Seq模型性能更优，这是因为Seq2Seq方法除了参数值的正确映射之外，还要求在一组数千框架上识别目标动作的学习模型，类数与训练例数之间的低关联度，使得Seq2Seq在处理自然语言语义解析时效果并不好.

本文方法在分类器为RF，旋转函数为最近邻居时性能达到最优.旋转函数为最近邻居时性能要优于TF/IDF，这是由于TF/IDF忽略最邻近的相关动作框架造成的.在所有评估情景中，随机森林在召回率和MRR具有最好的分类性能，而SVM和MLP分类器在召回方面表现接近.

4. 结语

本文提出一种面向终端用户编程的自然语言语义解析方法，用于在受限注释数据集合下，将自然语言命令映射到大型异构框架集合的动作框架.提出的分布式语义解析方法，使用最近邻旋转函数和随机森林组合可以得到0.855 1的召回率和0.432的MRR，效果优于现有的Seq2Seq模型，说明本文方法的有效性.未来工作将研究所提语义解析方法的实际应用.

参考文献 (15)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

终端用户编程的自然语言语义解析方法研究

1.
重庆电子工程职业学院人工智能与大数据学院, 重庆 401331

2.
重庆邮电大学理学院, 重庆 400065

作者简介:
高灵霞(1978-), 女, 硕士, 副教授, 主要从事人工智能及信息安全研究 .

On Natural Language Semantic Analysis Method of End User Programming

1.
Institute of Artificial Intelligence and Big Data, Chongqing College of Electronic Engineering, Chongqing 401331, China

2.
School of Science, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

计量

终端用户编程的自然语言语义解析方法研究

作者简介: 高灵霞(1978-), 女, 硕士, 副教授, 主要从事人工智能及信息安全研究
1. 重庆电子工程职业学院人工智能与大数据学院, 重庆 401331

2. 重庆邮电大学理学院, 重庆 400065

English Abstract

On Natural Language Semantic Analysis Method of End User Programming

全文HTML

2.1. 语义解析方法

2.2. 语义角色标记

2.3. 旋转

2.4. 动作候选实例生成

2.5. 分类及关联度排序

目录

留言板

终端用户编程的自然语言语义解析方法研究

1. 重庆电子工程职业学院 人工智能与大数据学院, 重庆 401331 2. 重庆邮电大学 理学院, 重庆 400065

作者简介: 高灵霞(1978-), 女, 硕士, 副教授, 主要从事人工智能及信息安全研究 .

On Natural Language Semantic Analysis Method of End User Programming

1. Institute of Artificial Intelligence and Big Data, Chongqing College of Electronic Engineering, Chongqing 401331, China 2. School of Science, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

计量

出版历程

终端用户编程的自然语言语义解析方法研究

作者简介: 高灵霞(1978-), 女, 硕士, 副教授, 主要从事人工智能及信息安全研究 1. 重庆电子工程职业学院 人工智能与大数据学院, 重庆 401331 2. 重庆邮电大学 理学院, 重庆 400065

English Abstract

On Natural Language Semantic Analysis Method of End User Programming

全文HTML

2.1. 语义解析方法

2.2. 语义角色标记

2.3. 旋转

2.4. 动作候选实例生成

2.5. 分类及关联度排序

目录

1.
重庆电子工程职业学院人工智能与大数据学院, 重庆 401331

2.
重庆邮电大学理学院, 重庆 400065

作者简介:
高灵霞(1978-), 女, 硕士, 副教授, 主要从事人工智能及信息安全研究 .

1.
Institute of Artificial Intelligence and Big Data, Chongqing College of Electronic Engineering, Chongqing 401331, China

2.
School of Science, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

作者简介: 高灵霞(1978-), 女, 硕士, 副教授, 主要从事人工智能及信息安全研究
1. 重庆电子工程职业学院人工智能与大数据学院, 重庆 401331

2. 重庆邮电大学理学院, 重庆 400065