-
开放科学(资源服务)标识码(OSID):

-
汉字书法,亦称书法,是一种具有魅力且悠久的汉字艺术表现形式。作为中国艺术的重要组成部分,它具备极高的艺术欣赏价值,并拥有超过4 000年的历史[1],与中国古代文化和历史密切相关。汉字书法在现代社会中也发挥着重要作用。例如,在商标设计领域广泛应用了汉字书法。然而,由于汉字的复杂性和毛笔的灵活性,真正写好汉字书法对人们来说是一项相当困难的任务,特别是对于初学者。汉字书法被认为是一项需要高度复杂动作的挑战性任务[2]。它注重改变毛笔的速度、压力、强度、方向和角度,以展现书法的美学特质。在汉字书写中,正确的笔画顺序至关重要。因为汉字是一种高度结构化的文字,大多数汉字是由一些笔画组合而成的。按照正确的笔画书写不仅能提高书写质量,还能提高书写速度。对于结构复杂的汉字,如果不按照正确的笔画书写,很难写出既美观又结构均匀的字体[3]。在“三笔一画”的基本技能考核和小学语文考试中,书写汉字的笔画也占有一定比例。因此,规范的笔画对于书写汉字来说是非常必要的。
考虑到这些挑战,汉字书写机器人系统引起了广泛关注[4]。通常情况下,一个书法机器人主要包含一个机械臂,控制模块以及夹紧装置,可完成各种汉字的书写和临摹工作,在书法教学和书法艺术展览中显示出巨大的应用潜力。在过去几十年里,手写机器人系统研究取得了长足进展。例如,文献[5]设计了一种基于汉字数据库的汉字书法书写机器人。根据汉字的历史进程,建立了相应的篆书、官书、正书、草书和行书数据库。有学者利用带有力反馈模块的3自由度机器人构建书写系统,通过提取夹持力和书写压力来保持书写精度[6]。为了模仿特殊的书写技巧,一些学者使用了编码器和kinect传感器来提取手写过程中的轨迹参数,并提出了一系列的书写方法[7]。文献[8]将插值算法和坐标变换应用于机器人手写控制过程,解决了小半径内书法毛笔的旋转和跟踪控制问题。文献[9]提出了一种机器人书法系统,该系统从教科书中提取汉字,并利用机器人操纵器书写不同风格的汉字。文献[10]应用“演示游戏”发明了6自由度机械臂,使机械臂能够手写人手教的汉字。在通过编码器记录和计算演示过程中的关节位置后,机械臂可以完美地重复书写动作。在模仿抄本方面,文献[11]发明了5自由度书法机器人。笔画分割算法是由一些研究人员开发的,它为从图像中学习书法提供了基础[12]。尽管已经出现了各种书法书写系统,但书法机器人的拟人化风格,书写准确性和灵活性仍有待提高。
虽然以前的研究者提出了许多教机器人书写书法的方法,但这些方法并不完美,在实际应用中受到了诸多限制,且难以适应各种书写风格和个性。机器人通过演示来学习,尽管在教学后能够以极高的准确度重现人类的书写动作,但其所需的教学量巨大,这在实际操作中是难以接受的。例如,在书法学习中,人类往往通过模仿著名艺术家的作品中的笔画图片来掌握技能,而对笔画图像中蕴含的位置信息无法精准掌握。但计算机却可以通过传统的图算法对位置进行解码分析,从而显著缩小搜索范围并大幅减少训练时间。因此,将人工智能技术与传统算法相结合可以更好地解决机器人书写问题。
随着深度学习技术的兴起,尤其是循环神经网络(RNN)和长短时记忆网络(LSTM)的引入,汉字书写机器人系统进入了新的发展阶段[13]。这些网络结构在处理序列数据时表现出色,能够更好地模拟人类书写的时序特性,从而提高书写的自然度和准确性。文献[14]提出了一种基于深度强化学习的书法机器人模型,该模型能够从笔画图像中获得笔画的压力信息及位置信息并使机械臂书写基本的汉字笔画。实验结果表明,该模型使用的奖励函数和随机策略梯度算法使机器臂成功地从笔画图像中学会了书写笔画。文献[15]提出了一种机器人书法系统,该系统建立了机器人毛笔书写的笔触模型,并利用遗传算法从笔画图像中获取轨迹信息。通过对机器人进行路径规划和位置变换,获得了优秀的书法临摹效果。此系统可以书写一些基本的笔画,或者将笔画按照从上到下从左到右的顺序进行排列组合,书写一些简单的汉字。
在前述研究的基础上,致力于探索机器书法学习领域的前沿。通过引入LSTM网络和GAN技术,提出了一种创新性的机器书法学习系统。该方法无需使用传统的笔画轨迹编码信息,从而解决传统书写轨迹信息缺失的问题。进一步地,所提方法可使机器人能够高效地学习和生成汉字笔画序列,推动机器书法领域的发展,为数字化艺术和人工智能交叉领域提供有益的实证基础。本文旨在应对机器书法在工业制造中所面临的巨大挑战,特别是针对主动书写机制需要大量训练数据集且手动标注繁琐的问题。本文的主要贡献点如下:
1) 引入生成对抗网络和长短时记忆网络的结合,以构建生成对抗架构。该架构中,LSTM网络与鉴别器网络协同工作,成功减小了训练数据集的规模,提高了系统的效率。
2) 通过LSTM网络的多个循环逐步生成新的轨迹点,使机器人能够逐渐完成整个汉字书法的书写,实现对笔画变化和书写顺序的精细控制。
3) 通过引入基于强化学习算法的策略梯度方法,进一步提高了系统性能,使机器人能够找到最佳策略。
全文HTML
-
生成对抗网络框架由两个相互作用的神经网络组成,即生成器网络和鉴别器网络[16]。这两个网络通过零和博弈进行联合训练,其中生成器的目标是合成与真实数据相似的虚假数据,而鉴别器的目标是区分真实数据和虚假数据。当训练成功时,生成器就是底层数据生成机制的近似者,即虚假数据的分布趋同于真实数据的分布。GAN充分利用其独特的优势,从最初的GAN发展到了逐步成长的GAN。其成像生成能力从32×32分辨率大幅提升到2K高清分辨率。由于具有分布匹配能力,GAN已成为各种数据合成和处理的常用工具,尤其是在视觉领域。
GAN的工作基于3个原则,首先是使生成模型能够学习,并且可以使用某种概率表示来生成数据。其次,模型的训练可以在任何冲突的情况下进行。最后,通过使用深度学习神经网络和人工智能算法来训练完整的系统。GAN网络部署的基本思想是针对无监督ML技术,但也被证明是半监督和强化学习的更好解决方案。这些因素共同使得GAN网络成为医疗保健、机械、银行等许多领域的综合解决方案。GAN被应用于各种研究和应用,例如图像生成、图像修复、文本生成、医学图像处理、语义分割、图像着色、图像到图像的翻译和艺术生成。此外,GAN的广泛应用为汉字书写系统带来了新的可能性。文献[17]GAN通过对抗性学习生成更为逼真的图像,为机器生成的汉字字体注入了更多的艺术感和真实感。
-
LSTM作为RNN的改进版本,引入了两个核心概念:细胞状态和“门”结构[18]。细胞状态用于存储序列数据处理中的相关信息,并通过不断传递,确保较早的信息中的特征可以传递到较后的细胞中。同时,“门”结构的巧妙设计使得LSTM网络能够有选择性地筛选和保留所需信息,使得细胞可以有选择地记忆必要的内容。通过这一构建,LSTM网络显著改善了RNN在处理长距离依赖时的问题,为时序信息的高效处理提供了有效的解决方案。
在LSTM中,细胞状态被构建为记忆单元,通过对当前状态和输入进行选择,实现对输入信息的灵活保留和删除,从而有效地解决了RNN仅具有短时记忆的局限。这一信息选择的功能是由“门”结构实现的,该结构包括遗忘门、输入门和输出门3个门控单元,它们按照一定的运行顺序协同工作,使LSTM网络能够更灵活地管理和处理序列数据,克服了传统RNN的局限性。
LSTM网络是为了解决传统RNN面临的长期依赖问题而设计的,其优秀的时间序列建模能力,对于理解和模仿人类书写风格至关重要。在书法书写系统中,理解和模拟人类的书写风格需要考虑长距离的上下文依赖。LSTM通过引入记忆单元和门控机制,能够更好地捕捉文本序列中的长期依赖关系,从而使得机器在模仿人类书写时更加准确和自然。
1.1. 生成对抗网络
1.2. 长短时记忆网络
-
图 1显示了本文所提出的机器人书法书写系统架构的训练过程。该架构由基于LSTM的笔画生成模块和CNN的鉴别器模块组成。笔画生成模块按顺序生成笔画点的概率分布。而鉴别器则判断输入图像是真实的(训练数据)还是伪造的(机器人书写的)。随后,使用生成对抗训练场景对整个架构进行训练。
-
图 2展示了机器人书法书写系统在实际用户操作中的训练效果。该系统仅采用基LSTM的生成模块,使整个操作过程更加简洁高效。用户首先向系统输入所需的笔画类型和笔画样式,而后,生成模块以此为依据生成包括所有机器人关节值的完整笔画。接着,机器人依次按照生成的关节值信息进行整个汉字的书写。
在具体的操作过程中,用户输入的笔画类型和样式充当了系统的输入信息,通过LSTM生成模块的处理,这一信息被转化为机器人关节值的序列。机器人则按照这一序列逐步完成整个书写过程。这个交互过程既简单又直观,用户可以通过简单的输入,实现对机器人书法书写的灵活控制。
这种系统极大地简化了用户与机器人的交互,用户只需提供简单的笔画信息,而机器人则能够智能地转化这些信息并完成相应的书写任务。这不仅提高了书写的效率,同时也使得用户能够更加直观地控制机器人的书写过程。
-
由于机器人系统参与训练过程,传统GAN的误差反向传播方法不能应用于该架构。为了解决这个问题,本文采用强化学习的策略梯度方法对系统进行训练。这一方法常用于解决强化学习问题,直接以建模和优化策略为目标,赋予系统智能生成笔画的能力。
-
学习的目标是鼓励代理获得最佳回报,而强化学习的目标则是鼓励代理获得更好的学习效果。策略梯度方法直接以策略建模为目标,通过优化策略达到更好的学习效果。通常用一个参数θ的参数化函数来构建策略模型,其数学表达式为πθ(a∣s),s是观测值。
在笔画生成模块中,LSTM网络接收空白图像作为输入,也就是说,在机器人书写过程中,LSTM会在每一个时间步骤接收到一个没有任何笔画痕迹的空白图像。然后,通过高斯采样技术从LSTM的输出中提取笔画位置信息。高斯采样是一种概率采样方法,能够有效地获取有关笔画位置概率分布的信息。这使得机器人可以根据这些概率分布确定笔画的准确位置。随后,利用反向运动学计算将笔画位置信息转换为机械手关节值。反向运动学计算基于机器人的运动学和动力学模型,将二维笔画位置信息转化为机器人机械手关节角度,通过控制机械手实现书写功能。获得机械手关节值后,机器人会使用这个关节值,通过将上一个循环的终点与当前循环的起点连接起来,继续生成笔画。这样,机器人就能够连续不断地书写出笔画,从而完成整个汉字或者整句话的书写。在整个书写过程中,机器人还会利用相机捕捉当前笔画的图像,并将这些图像传输到LSTM网络的下一个循环。通过上述过程的不断重复,机器人可以生成大量的点,从而形成连续的笔画。这个过程会一直持续,直到生成所有的点为止(图 3)。
-
笔画生成模块采用专门为机器人设计的LSTM网络。图 4展示了使用经过5次完整训练数据集遍历的LSTM网络生成笔画的示例。LSTM网络在每个环路上生成一个概率分布。机器人通过对该分布进行采样,得到一个三维坐标值Wx。机器人随后使用反向运动学将笔画位置转换为其关节值。机器人需要将先前的轨迹点连接到绘图板上的当前轨迹点,直到获得向量W =[W0,W1,…,Wz-1]的所有轨迹值。LSTM网络的循环数z是根据笔画的复杂性预先设置的。
在设计LSTM网络结构时,考虑到了不同汉字或字形的复杂性。研究发现,一些汉字的笔画相对较为复杂,可能涉及到更多的细致结构和曲线。为了充分捕捉这些复杂笔画的信息,合理地增加了LSTM网络的循环次数。这意味着在机器人学习和生成复杂笔画的过程中,网络能够更细致地学习到不同时间步长的笔画位置信息,从而提高生成结果的准确性。通过这样的设计,确保了机器人系统能够更有效地学习和生成各种复杂的汉字书法。例如,对于简单的笔画,LSTM网络只经历2个循环。换句话说,LSTM输出2个坐标值,然后机器人将2个坐标值按顺序连接起来。而一个复杂的笔画需要LSTM网络经历5次循环。在这种情况下,机器人会得到一个轨迹向量W =[W0,W1,…,W4],这意味着机器人需要连续写入5次才能完成一个笔画。
本文中使用的LSTM网络是一个针对所有笔画的60维单隐层循环神经网络。在LSTM的每个循环中,LSTM的输入被标记为ux-1。在LSTM的第一个循环中,输入是一个28 × 28像素的空白向量u0。将图像样本平均为网络的全局特征,并设置为LSTM隐藏层的初始值b0。c0是一个28 × 28维的随机向量,也是网络的全局特征。LSTM网络第x环的输入为28 × 28像素向量ux-1、bx-1和cx-1的集合,输出为bx和cx,其表达式为:
其中bx用于预测通过完全连接层的三维坐标的高斯分布的平均值μx。μx定义如下:
式中f(·)表示神经网络的两层全连接层。sigmoid函数用于映射0和1之间的变量。
高斯分布的方差固定在单位矩阵E上,对角线元素为1。机械臂利用高斯分布上的采样T(i∣μ,E)生成需要书写的三维坐标Wx=(ix,jx,kx),表达式为:
式中n为[28, 28, 4]的最大值。T是高斯分布。
在本文实验中,毛笔的笔尖安装在该机器人系统的机械臂上,在机械臂的工作范围内操作。l为机械连杆,(i,j,k)为机器人的坐标轴,Y为机械臂的舵机。机器人通过反向运动学将三维坐标点nx转换为机器人的3个关节值θx=(θ1,θ2,θ3)。摄像机捕捉写在板子上的完整字体,然后将捕获的图像发送回神经网络。
具体计算方法如下:
其中,dx2=ix2+jx2,N(·)表示反向运动学的变换过程。机器人沿着上一个循环生成的轨迹点继续书写行程,将上一个循环的坐标点Wx-1与本循环的坐标点Wx相连。如果是LSTM的第一次循环,则只生成坐标点。此外,机器人旁边的摄像头会对写入的结果进行捕捉、二值化和修剪,生成一幅28×28像素的图像。这一过程用M(·)表示。该图像将作为LSTM下一循环的输入ux,其表达式为:
最后,生成模块的输出如下:
-
笔画鉴别模块建立在CNN网络上,接收机器人生成的伪造图像和真实笔画图像。网络通过卷积和全连接层识别图像的真伪,输出概率分布。笔画识别模块的输入分为两类。第一类是由摄像头拍摄的机器人书写结果图像Ifake,该图像经过二值化和修剪。第二类是真实笔画图像Ireal。输入图像层的大小设置为28×28,网络输出的大小为1。输入层经过卷积处理后得到C1层,C1层输出10个24×24像素的特征图。C1层经过下采样,得到S2层,S2层输出10个12×12像素的特征图。S2层经过卷积,得到C3层,C3层输出20个8×8像素的特征图。C3层经过下采样,得到S4层,S4层输出20个4×4像素的特征图。S4层经过全连接,得到C5层,C5层输出100个神经元的结果。最终,通过输出层生成一个单一的值。输出预测真实图像Ireal或机器人生成的图像Ifake中I的数据分布概率。CNN网络的隐藏层包括两个卷积层和两个全连接层。图 5为笔画鉴别模块的网络结构。图像在卷积层被上采样到320维,然后通过全连接层产生一维输出。
2.1. 系统架构
2.1.1. 训练方法架构
2.1.2. 实际用户操作训练效果
2.2. 笔画生成模块
2.2.1. 策略梯度方法
2.2.2. LSTM网络结构
2.3. 笔画鉴别模块
-
本文系统构架的目标函数表示为:
式中:D(·)表示CNN网络的输出;A(·)表示LSTM网络的输出;E[·]表示LSTM网络的期望值。CNN网络的目标用以下损失函数表示:
式中:D(i)表示CNN网络对真实笔画样本的得分;D(A(u0,b0,c0))表示CNN网络对LSTM网络生成的笔画样本的得分,取值范围为[0, 1]。
为了使LSTM网络获得更高的奖励,LSTM网络必须保证每个轨迹点的质量。因此,LSTM网络的目标是提高CNN网络中高分轨迹的出现概率。
LSTM网络的损失函数如下:
式中:logprob(LSTM(ux,bx,cx))表示LSTM第x次循环输出轨迹点的概率;
$ \prod\limits_{x = 0}^z {{{\log }_{{\rm{prob }}}}} $ (LSTM(ux,bx,cx))表示通过乘以笔画中所有轨迹点的似然概率计算出的笔画的发生概率。目标函数Y(θ)的梯度和LSTM网络参数θ的推导式为:
由于期望值E[·]可以通过采样得到近似值,因此LSTM网络参数的更新方式如下:
式中α是学习率。本文所提算法的训练步骤如图 6所示。
-
书写汉字书法有两种关键方法:笔画轨迹学习和笔势学习。只有通过正确的骨架坐标,才能正确完成书法书写。笔画的粗细和角度决定了字的美感。如图 7a所示,汉字“丞”包括6个基本笔画,即笔画1(横钩)、笔画2(竖钩)、笔画3(横撇)、笔画4(撇)、笔画5(捺)和笔画6(横)。如图 7b所示,汉字“王”包括4个基本笔画,即笔画1(横)、笔画2(横)、笔画3(竖)和笔画4(横)。我们用这两个汉字来验证本文所提机器人书法书写系统的性能。
图 8-11显示了使用本文所提机器人书法书写系统书写汉字“丞”和“王”的书写结果和错误率。图 8、图 10中a表示目标图像,b-g表示第1至第6次的书写结果。
3.1. 算法训练
3.2. 书写结果
-
表 1和表 2给出了本文所提机器人书法书写系统在每次笔画训练过程中,学习率为0.3时的纠错结果。计算方法采用目标图像与书写结果图像之间的平均绝对百分比误差(MAPE)。经过6次练习,平均绝对百分比误差可以逐渐收敛。
图 12展示了本文所提机器人系统的书写结果与实际人类样本书写之间的MAPE。
-
除了与人类样本的相似度计算外,还对机器人书法书写结果进行了美学分析。主要从3个特征来评价,具体描述如下。
汉字书写的整体美学分析结果可以通过3个指标的加权和来评价,如公式(16)所示。
式中协调指标的计算公式如下:
其含义为书写结果的美观性都受到每个笔画相对于其他笔画的相对大小的影响;平衡指标的计算公式如下:
其含义为整个汉字的平衡是通过不同笔画的不同方向和不同倾斜度来实现的;分布指标的计算公式如下:
其含义为整个汉字笔画的相对分布在美学上由其质心和整体分布的焦点决定;zc、zh、zd为加权系数。
用协调指标Xc来计算各笔画与其他笔画的相对大小比。在中国书法文字中,每一笔的相对长度影响着一个字的美,甚至它的意思。例如,两个意义完全不同的汉字“土”和“士”的不同之处在于图像中笔画的长度。平衡指标Xh用来估计汉字笔画的书写角度。笔画太斜或太粗都会影响整体书法的美感。分布指标Xd估计了一个书法字符中各个笔画的相对位置。笔画的位置过于接近或者过于远离会导致书法作品显得内敛或懒散。
-
公式(17)中存在一些影响公平性的问题。笔画图像被视为单向图像,而图像应该是双向的。在书法书写过程中,笔画是单向的、有序的。但是,从图像来判断书法书写的美感,却是双向的、无序的。也就是说,无论笔画顺序如何排列,最终得到的图像都是一样的。将公式(17)中的单向估计修正为双向估计,然后得到
通过修正后的双向估计公式(20),可以公平地评估汉字中不同笔画的相对比例。除了图像的方向性问题,公式(18)和(20)还存在一个需要改进的问题。由于公式(18)和(20)的评价方法是通过对所有笔画的误差求和来计算的,因此笔画较多的汉字得分会较低。将公式(18)-(20)中的求和运算修改为平均运算,从而得到
在得到上述公式(19),(21)和(22)后,可以对机器人所书写的书法字体的美学进行综合评估。将公式(16)修改为
然后根据这些美学指标公正地评价所提出的机器人书法书写系统。此外,在实验设计中也融入了人类书法审美的主观评价,通过与实际人类样本的对比(MAPE),更全面地评估了机器人书法书写系统的美学表现。
-
加权系数设置为zc=0.4,zh=0.4和zd=0.2。本文方法与其他对比方法的美学评估结果见表 3。
在表 3中,美学评分与个人感知之间可能存在误差。分数上的细微差别并不意味着其书写效果不佳。美学分析指标解释如下:
1) 协调指标,根据目标和结果的笔画长度进行评分。分数越高,表示协调性越好。
2) 平衡指标:根据目标和结果笔画的旋转角度进行评分。分数越高,表示平衡性越好。
3) 分布指标:根据目标笔画和结果笔画的分布情况进行评分。分数越高,说明分布越好。
4) MAPE:根据书写目标笔画和实际人类样本的书写结果计算误差百分比。比率越大,表示误差越大。
由表 3可知,本文所提系统方法显著提高了平衡指数,并在整体指标中表现出更好的性能。综上所述,我们设计的机器人书法书写系统不仅与人类书写相比误差较小,而且在美学评价方面也取得了令人满意的结果。
4.1. 数据分析
4.2. 美学分析
4.2.1. 评价指标
4.2.2. 评估结果
-
机器人学习书法技能是一个复杂而具有挑战性的任务。尽管研究人员已提出多种机器人书法系统,但目前的方法在对笔画变化和书写顺序的精细控制以及手动标注繁琐训练数据方面存在一些限制。为了解决这些问题,本文提出了一种基于生成对抗网络和长短时记忆网络的机器人书法系统。该系统使机器人能够独立学习和生成汉字笔画的轨迹书写动作,从而实现了对笔画变化和书写顺序的精细控制。该方法利用GAN网络生成笔画轨迹图像,并使用LSTM网络将轨迹图像转换为机器人运动序列,实现了从输入笔画图像到机器人运动序列的直接转换。这种方法可以实现高质量的汉字书法,无须书写序列信息,从而简化了系统。通过多个实验和书写结果表明,本文提出的机器人书法书写系统可以美观地书写中国汉字书法。该系统具有较高的准确性和灵活性,能够适应不同的书写风格和字形结构,为机器人书法领域的发展提供了有力支持。
虽然研究取得了一定的成果,但仍然存在一些潜在的不足之处,以及可以在未来研究中改进的方向。例如,LSTM网络需要经历更多的循环。这可能导致系统在处理复杂笔画时的速度较慢。未来的研究可以关注提高系统的实时性,使其更适用于实际书写场景。此外,该系统对于环境变化的适应性仍需深入探究。未来可以考虑引入更多的感知机制,使系统更好地适应不同的书写环境。
下载: