The Robot Calligraphy System Combining Generative Adversarial Networks and Long Short-Term Memory Networks

HAN Hao; LIU Jia

doi:10.13718/j.cnki.xdzk.2025.07.020

Machine calligraphy, as one of crucial robotic manipulator applications in industrial manufacturing, faces significant challenges. Its active writing mechanism requires extensive training datasets containing information of writing trajectory sequences, and manual annotation of these data is a laborious task. To address this issue, this paper proposes a machine calligraphy writing system based on Generative Adversarial Networks (GAN) and Long Short-Term Memory Networks (LSTM). The writing system converts Chinese character stroke images into trajectory sequences without using stroke trajectory coding information, overcoming the problem of missing traditional writing trajectory information. Specifically, a GAN architecture was initially constructed, in which, LSTM networks was combined with a discriminative network to reduce the scale of the training dataset. Subsequently, the LSTM network generated new trajectory points gradually through multiple cycles, allowing the robot to progressively complete the entire Chinese calligraphy writing process. Finally, a discriminative network was employed to evaluate the output of the LSTM network to assist the robot finding the optimal strategy. Reinforcement learning algorithm was introduced to further enhance system performance. Experimental results demonstrate that the proposed system can efficiently produce high-quality and aesthetically pleasing Chinese calligraphy.

HTML

开放科学（资源服务）标识码（OSID）：
汉字书法，亦称书法，是一种具有魅力且悠久的汉字艺术表现形式。作为中国艺术的重要组成部分，它具备极高的艺术欣赏价值，并拥有超过4 000年的历史^[1]，与中国古代文化和历史密切相关。汉字书法在现代社会中也发挥着重要作用。例如，在商标设计领域广泛应用了汉字书法。然而，由于汉字的复杂性和毛笔的灵活性，真正写好汉字书法对人们来说是一项相当困难的任务，特别是对于初学者。汉字书法被认为是一项需要高度复杂动作的挑战性任务^[2]。它注重改变毛笔的速度、压力、强度、方向和角度，以展现书法的美学特质。在汉字书写中，正确的笔画顺序至关重要。因为汉字是一种高度结构化的文字，大多数汉字是由一些笔画组合而成的。按照正确的笔画书写不仅能提高书写质量，还能提高书写速度。对于结构复杂的汉字，如果不按照正确的笔画书写，很难写出既美观又结构均匀的字体^[3]。在“三笔一画”的基本技能考核和小学语文考试中，书写汉字的笔画也占有一定比例。因此，规范的笔画对于书写汉字来说是非常必要的。

考虑到这些挑战，汉字书写机器人系统引起了广泛关注^[4]。通常情况下，一个书法机器人主要包含一个机械臂，控制模块以及夹紧装置，可完成各种汉字的书写和临摹工作，在书法教学和书法艺术展览中显示出巨大的应用潜力。在过去几十年里，手写机器人系统研究取得了长足进展。例如，文献[5]设计了一种基于汉字数据库的汉字书法书写机器人。根据汉字的历史进程，建立了相应的篆书、官书、正书、草书和行书数据库。有学者利用带有力反馈模块的3自由度机器人构建书写系统，通过提取夹持力和书写压力来保持书写精度^[6]。为了模仿特殊的书写技巧，一些学者使用了编码器和kinect传感器来提取手写过程中的轨迹参数，并提出了一系列的书写方法^[7]。文献[8]将插值算法和坐标变换应用于机器人手写控制过程，解决了小半径内书法毛笔的旋转和跟踪控制问题。文献[9]提出了一种机器人书法系统，该系统从教科书中提取汉字，并利用机器人操纵器书写不同风格的汉字。文献[10]应用“演示游戏”发明了6自由度机械臂，使机械臂能够手写人手教的汉字。在通过编码器记录和计算演示过程中的关节位置后，机械臂可以完美地重复书写动作。在模仿抄本方面，文献[11]发明了5自由度书法机器人。笔画分割算法是由一些研究人员开发的，它为从图像中学习书法提供了基础^[12]。尽管已经出现了各种书法书写系统，但书法机器人的拟人化风格，书写准确性和灵活性仍有待提高。

虽然以前的研究者提出了许多教机器人书写书法的方法，但这些方法并不完美，在实际应用中受到了诸多限制，且难以适应各种书写风格和个性。机器人通过演示来学习，尽管在教学后能够以极高的准确度重现人类的书写动作，但其所需的教学量巨大，这在实际操作中是难以接受的。例如，在书法学习中，人类往往通过模仿著名艺术家的作品中的笔画图片来掌握技能，而对笔画图像中蕴含的位置信息无法精准掌握。但计算机却可以通过传统的图算法对位置进行解码分析，从而显著缩小搜索范围并大幅减少训练时间。因此，将人工智能技术与传统算法相结合可以更好地解决机器人书写问题。

随着深度学习技术的兴起，尤其是循环神经网络(RNN)和长短时记忆网络(LSTM)的引入，汉字书写机器人系统进入了新的发展阶段^[13]。这些网络结构在处理序列数据时表现出色，能够更好地模拟人类书写的时序特性，从而提高书写的自然度和准确性。文献[14]提出了一种基于深度强化学习的书法机器人模型，该模型能够从笔画图像中获得笔画的压力信息及位置信息并使机械臂书写基本的汉字笔画。实验结果表明，该模型使用的奖励函数和随机策略梯度算法使机器臂成功地从笔画图像中学会了书写笔画。文献[15]提出了一种机器人书法系统，该系统建立了机器人毛笔书写的笔触模型，并利用遗传算法从笔画图像中获取轨迹信息。通过对机器人进行路径规划和位置变换，获得了优秀的书法临摹效果。此系统可以书写一些基本的笔画，或者将笔画按照从上到下从左到右的顺序进行排列组合，书写一些简单的汉字。

在前述研究的基础上，致力于探索机器书法学习领域的前沿。通过引入LSTM网络和GAN技术，提出了一种创新性的机器书法学习系统。该方法无需使用传统的笔画轨迹编码信息，从而解决传统书写轨迹信息缺失的问题。进一步地，所提方法可使机器人能够高效地学习和生成汉字笔画序列，推动机器书法领域的发展，为数字化艺术和人工智能交叉领域提供有益的实证基础。本文旨在应对机器书法在工业制造中所面临的巨大挑战，特别是针对主动书写机制需要大量训练数据集且手动标注繁琐的问题。本文的主要贡献点如下：

1) 引入生成对抗网络和长短时记忆网络的结合，以构建生成对抗架构。该架构中，LSTM网络与鉴别器网络协同工作，成功减小了训练数据集的规模，提高了系统的效率。

2) 通过LSTM网络的多个循环逐步生成新的轨迹点，使机器人能够逐渐完成整个汉字书法的书写，实现对笔画变化和书写顺序的精细控制。

3) 通过引入基于强化学习算法的策略梯度方法，进一步提高了系统性能，使机器人能够找到最佳策略。

1. 相关理论

1.1. 生成对抗网络

生成对抗网络框架由两个相互作用的神经网络组成，即生成器网络和鉴别器网络^[16]。这两个网络通过零和博弈进行联合训练，其中生成器的目标是合成与真实数据相似的虚假数据，而鉴别器的目标是区分真实数据和虚假数据。当训练成功时，生成器就是底层数据生成机制的近似者，即虚假数据的分布趋同于真实数据的分布。GAN充分利用其独特的优势，从最初的GAN发展到了逐步成长的GAN。其成像生成能力从32×32分辨率大幅提升到2K高清分辨率。由于具有分布匹配能力，GAN已成为各种数据合成和处理的常用工具，尤其是在视觉领域。

GAN的工作基于3个原则，首先是使生成模型能够学习，并且可以使用某种概率表示来生成数据。其次，模型的训练可以在任何冲突的情况下进行。最后，通过使用深度学习神经网络和人工智能算法来训练完整的系统。GAN网络部署的基本思想是针对无监督ML技术，但也被证明是半监督和强化学习的更好解决方案。这些因素共同使得GAN网络成为医疗保健、机械、银行等许多领域的综合解决方案。GAN被应用于各种研究和应用，例如图像生成、图像修复、文本生成、医学图像处理、语义分割、图像着色、图像到图像的翻译和艺术生成。此外，GAN的广泛应用为汉字书写系统带来了新的可能性。文献[17]GAN通过对抗性学习生成更为逼真的图像，为机器生成的汉字字体注入了更多的艺术感和真实感。

1.2. 长短时记忆网络

LSTM作为RNN的改进版本，引入了两个核心概念：细胞状态和“门”结构^[18]。细胞状态用于存储序列数据处理中的相关信息，并通过不断传递，确保较早的信息中的特征可以传递到较后的细胞中。同时，“门”结构的巧妙设计使得LSTM网络能够有选择性地筛选和保留所需信息，使得细胞可以有选择地记忆必要的内容。通过这一构建，LSTM网络显著改善了RNN在处理长距离依赖时的问题，为时序信息的高效处理提供了有效的解决方案。

在LSTM中，细胞状态被构建为记忆单元，通过对当前状态和输入进行选择，实现对输入信息的灵活保留和删除，从而有效地解决了RNN仅具有短时记忆的局限。这一信息选择的功能是由“门”结构实现的，该结构包括遗忘门、输入门和输出门3个门控单元，它们按照一定的运行顺序协同工作，使LSTM网络能够更灵活地管理和处理序列数据，克服了传统RNN的局限性。

LSTM网络是为了解决传统RNN面临的长期依赖问题而设计的，其优秀的时间序列建模能力，对于理解和模仿人类书写风格至关重要。在书法书写系统中，理解和模拟人类的书写风格需要考虑长距离的上下文依赖。LSTM通过引入记忆单元和门控机制，能够更好地捕捉文本序列中的长期依赖关系，从而使得机器在模仿人类书写时更加准确和自然。

5. 结论

机器人学习书法技能是一个复杂而具有挑战性的任务。尽管研究人员已提出多种机器人书法系统，但目前的方法在对笔画变化和书写顺序的精细控制以及手动标注繁琐训练数据方面存在一些限制。为了解决这些问题，本文提出了一种基于生成对抗网络和长短时记忆网络的机器人书法系统。该系统使机器人能够独立学习和生成汉字笔画的轨迹书写动作，从而实现了对笔画变化和书写顺序的精细控制。该方法利用GAN网络生成笔画轨迹图像，并使用LSTM网络将轨迹图像转换为机器人运动序列，实现了从输入笔画图像到机器人运动序列的直接转换。这种方法可以实现高质量的汉字书法，无须书写序列信息，从而简化了系统。通过多个实验和书写结果表明，本文提出的机器人书法书写系统可以美观地书写中国汉字书法。该系统具有较高的准确性和灵活性，能够适应不同的书写风格和字形结构，为机器人书法领域的发展提供了有力支持。

虽然研究取得了一定的成果，但仍然存在一些潜在的不足之处，以及可以在未来研究中改进的方向。例如，LSTM网络需要经历更多的循环。这可能导致系统在处理复杂笔画时的速度较慢。未来的研究可以关注提高系统的实时性，使其更适用于实际书写场景。此外，该系统对于环境变化的适应性仍需深入探究。未来可以考虑引入更多的感知机制，使系统更好地适应不同的书写环境。

Figure (12) Table (3) Reference (18)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

Message Board

The Robot Calligraphy System Combining Generative Adversarial Networks and Long Short-Term Memory Networks

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors