Optimization of Eye Movement Trajectory Tracking for Tennis Players Based on Video Image Threshold Segmentation

LI Tingwen; ZHANG Jianhua

doi:10.13718/j.cnki.xdzk.2025.10.018

Accurate eye movement trajectory tracking of tennis players remains challenging due to rapid eye motion and concentrated contribution of fixation points. The existing segmentation algorithms are difficult to accurately identify the trajectory due to local grayscale similarity, which affects the precision. To address this, we propose an optimized video image threshold segmentation method to enhance tracking accuracy and real-time performance for athlete training. Using GoPro HERO12 Black cameras, we captured video data from professional tennis players at Minnan Normal University. The foreground images were obtained via Tsallis relative entropy-based multi-threshold segmentation and fed into a deep learning model combining convolutional neural networks and attention mechanisms for feature extraction and optimization. A regularization term was introduced to mitigate overfitting and refine feature output. Experimental results demonstrate that our method effectively segmented the foreground images, producing clear and accurate eye movement trajectories that closely aligned with the ground truth, validating its superior threshold segmentation capability. The optimized model exhibits stable convergence, with loss values approaching zero with the training rounds, ensuring high efficiency and precision in trajectory tracking.

HTML

开放科学（资源服务）标识码（OSID）：
眼球运动主要分为平滑追踪(追随)、快速眼跳(扫视)和注视3种类型^[1]。在网球这项高速、高对抗性的运动中，运动员需要迅速从对手的站位、引拍、挥拍击球等一系列复杂动作中准确追踪网球的运动轨迹并做出反应，以便更好地控制球的方向和速度，实现对来球方向、速度、落点及弹跳等要素的精准预判^[2-3]，从而在比赛中取得优势。这一过程高度依赖于运动员的视觉搜索效率和眼球运动轨迹的精确性^[4]。然而，传统的人工观察或机械记录法不仅耗时费力，且难以实时、准确地捕捉运动员在比赛中的眼球运动细节。

为实现高效、准确的眼球运动轨迹捕捉，诸多学者展开了分析。例如，研究多人情景下眼球视觉搜索特征的捕捉方法，通过采集目标人物眼睛图像，使用通光孔—角膜反射法计算眼球角膜外表面的普尔钦斑，并依据亮光点与瞳孔中心的向量关系估算眼球运动轨迹^[5]。但在多人情况下光线环境存在差异，该方法的眼球运动轨迹捕捉精度欠佳。在眼动追踪技术研究方面，前期学者通过采集引航作业人员眼动数据，计算眼动范围、扫描时间和平均注视时间等参数，获得眼球运动轨迹捕捉结果^[6]。然而，追踪过程中眼球存在微颤和漂移现象，使得捕捉到的轨迹不平滑不连续，影响准确性。为了探讨以用户视线为线索的眼动追踪方法，研究人员通过采集用户眼动数据，使用逻辑回归模型进行预测，得到眼球运动轨迹结果^[7]。但是模型在处理速度上存在延迟，影响追踪效果。同时，也有研究者尝试基于深度学习的标记点序列预测补全方法，利用双向长短期记忆网络和时间反演对称性，通过组合损失函数约束人体运动^[8]。该方法的缺点是人体运动的复杂性和多样性导致数据质量参差不齐，低质量数据增加了处理难度。

由于网球比赛视频环境复杂，背景干扰多和运动员移动速度快，深度学习模型难以识别网球运动员的眼球区域，进而无法捕捉眼球的运动轨迹。而视频图像阈值分割方法能够有效分割出目标区域和背景区域^[9-10]。通过眼球区域和背景区域在灰度级上存在的差异，将目标区域从背景区域分离。使得后续针对目标区域的捕捉操作可以更加直接、高效地进行，避免了在整个图像中盲目搜索目标区域所带来的时间和资源浪费。因此，使用视频图像分割技术处理网球运动员的视频图像，并将其作为深度学习模型的输入，可以有效提高眼球运动轨迹捕捉的准确性和实时性。通过分析眼球运动轨迹捕捉结果，帮助运动员赛后复盘，优化训练计划，提升竞技水平。

3. 讨论与启示

网球运动员在比赛过程中产生的眼球运动轨迹是运动员在比赛过程中获得胜利的关键。因为细微的眼球运动可以帮助运动员精准捕捉到运动的网球，进而让运动员选择更加适合的比赛战术，以提高比赛获胜的概率。然而，现有研究中，对网球运动员眼球运动轨迹的捕捉研究较少，无法为运动员提供更有效的数据来支持运动员修改和提升训练计划，为此，提出视频图像阈值分割下的网球运动员眼球运动轨迹捕捉优化方法。相较于传统的基于简单阈值分割或单一模型的眼球运动轨迹捕捉方法，本文将Tsallis相对熵多阈值分割技术与卷积神经网络、注意力机制以及正则化优化相结合。Tsallis相对熵^[31]能够更为精准地处理图像中复杂的灰度分布，为后续深度学习模型提供高质量的输入。卷积神经网络^[32]与注意力机制适用于处理具有高度复杂性和动态性的数据特征，能够使模型在复杂多变的网球比赛场景下自适应地提取眼球运动的关键特征。该方法为运动视觉领域的研究提供了新的技术思路，有助于深入理解网球运动员视觉认知与决策机制。

实验结果表明，所提方法可以有效地分割出网球运动员视频图像中的目标，并捕捉到清晰的网球运动员眼球运动轨迹。这是因为所提方法利用视频图像分割技术中的Tsallis相对熵，基于图像不同区域的灰度差，较为精确地分割出所采集图像中的运动员眼眶部分，并将其输入至卷积神经网络中，提取眼球运动轨迹。同时，利用注意力机制提高眼球运动特征的清晰程度，以保证眼球运动特征的提取效果。在此基础上，采用正则化技术降低算法的复杂度，保证运动轨迹捕捉的实时性。

此次研究存在一些局限性：在数据采集方面，虽然选择了特定型号运动相机并设置了相关参数，但仍未涵盖所有复杂的网球运动场景和运动员个体差异情况。例如：强光直射或极低光照对图像采集质量会产生不良影响；不同水平或风格运动员的眼球运动特征多样性未被充分挖掘。实验对象仅选取了闽南师范大学体育学院网球运动员，样本范围相对较窄，可能存在一定的样本偏差，无法完全代表所有网球运动员群体的特征，对研究结果的普遍性有一定影响。此外，在模型构建方面，尽管当前的深度学习模型在性能上表现出色，但面对极端复杂场景下的网球运动员眼球运动，模型的泛化能力仍有待提升。同时，Tsallis相对熵计算过程较复杂，在一定程度上影响了处理速度，这在实时性要求极高的场景中可能成为限制因素。

未来研究可从以下方面展开。在数据采集方面，进一步探索更先进的图像采集设备和技术，能够适应更广泛的环境条件，获取更高质量、更全面的运动员视频图像数据，同时结合多种传感器获取更多维度的信息，以更精准地同步记录眼球运动与身体动作等相关数据，为更深入的研究提供丰富的数据支持。后续研究可引入迁移学习技术，利用大规模跨领域视觉数据对模型进行预训练，使其能够更好地适应不同场景。对于Tsallis相对熵计算复杂度高的问题，可以采用并行计算技术提高整体处理效率。还可拓展应用领域，将该方法用于其他球类运动项目中，研究不同运动项目运动员眼球运动特征差异及其与运动表现的关系，建立更通用的运动员视觉行为模型，为体育训练和竞技提供更广泛的理论支持和技术指导。同时，也可探索将眼球运动轨迹捕捉技术与虚拟现实、增强现实技术相结合，为运动员模拟训练、技能提升提供更沉浸式、个性化的训练环境和反馈机制。

Figure (7) Table (4) Reference (32)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	任条娟, 陈鹏, 陈友荣, 等. 基于深度学习的多目标运动轨迹预测算法[J]. 计算机应用研究, 2022, 39(1): 296-302. Google Scholar
[2]	朱琳, 董鹏程, 沈培鑫, 等. 基于SGGC-Net动作捕捉系统解析行走步态的信度与效度[J]. 医用生物力学, 2024, 39(2): 305-311. Google Scholar
[3]	骆蕾, 张杨, 陈洁, 等. 发作性睡病患者的快速眼球运动密度特征[J]. 中国心理卫生杂志, 2022, 36(8): 658-662. Google Scholar
[4]	支慧晶, 刘阳. 竞走裁判员在多人情景下判罚决策的视觉搜索特征[J]. 心理与行为研究, 2024, 22(1): 130-136. Google Scholar
[5]	胡启慧, 蔡英凤, 王海, 等. 基于层次图注意的异构多目标轨迹预测方法[J]. 汽车工程, 2023, 45(8): 1448-1456. Google Scholar
[6]	李新, 陈伟炯, 陈文涛, 等. 基于眼动追踪技术的引航员情景意识识别研究[J]. 安全与环境学报, 2024, 24(4): 1485-1494. Google Scholar
[7]	陈静, 黎雅丽, 陆泉. 基于眼动追踪的用户感知预测模型研究[J]. 情报理论与实践, 2022, 45(4): 154-161, 169. Google Scholar
[8]	翁冬冬, 王怡晗, 郭署山, 等. 融合时空约束的光学动作捕捉标记点实时补全方法[J]. 计算机辅助设计与图形学学报, 2023, 35(8): 1197-1205. Google Scholar
[9]	杨蕴, 李玉, 赵泉华. 基于局部空间信息的可变类模糊阈值光学遥感图像分割[J]. 自动化学报, 2022, 48(2): 582-593. Google Scholar
[10]	吴佳芸, 武灵芝, 胡晓飞. 基于通用学习均衡优化器的多阈值图像分割[J]. 传感技术学报, 2024, 37(3): 463-468. Google Scholar
[11]	KANG L Q, YANG P C, LV Q J, et al. Wrapping Phase Repair Method Based on Tsallis Relative Entropy Evaluation [J]. Optics and Precision Engineering, 2024, 32(8): 1130-1139. doi: 10.37188/OPE.20243208.1130 CrossRef Google Scholar
[12]	董维振, 陈燕. 基于改进被囊群算法的图像多阈值分割方法[J]. 计算机工程与设计, 2023, 44(7): 2093-2102. Google Scholar
[13]	刘庆鑫, 李霓, 贾鹤鸣, 等. 改进鱼优化算法和熵测度的图像多阈值分割[J]. 智能系统学报, 2024, 19(2): 381-391. Google Scholar
[14]	康乐谦, 杨鹏程, 吕秋娟, 等. Tsallis相对熵引导的包裹相位修补[J]. 光学精密工程, 2024, 32(8): 1130-1139. Google Scholar
[15]	方叶祥, 杜和祥, 甘平. 基于Tsallis相对熵的DEMATEL阈值确定研究[J]. 工程数学学报, 2023, 40(2): 207-218. Google Scholar
[16]	汤弘毅, 徐武, 杨昊东, 等. 基于IWOA算法的Tsallis相对熵图像多阈值分割[J]. 江苏科技大学学报(自然科学版), 2022, 36(1): 90-97. Google Scholar
[17]	丁红发, 傅培旺, 彭长根, 等. 混洗差分隐私保护的度分布直方图发布算法[J]. 西安电子科技大学学报(自然科学版), 2023, 50(6): 219-236. Google Scholar
[18]	张昱彤, 翟旭平, 聂宏. 基于低分辨率红外传感器的深度学习动作识别方法[J]. 红外技术, 2022, 44(3): 286-293. Google Scholar
[19]	张欣宇, 邱国鹏. 融合改进LM算法及动态时间规整算法的人体动作捕捉研究[J]. 西南大学学报(自然科学版), 2024, 46(5): 175-185. doi: 10.13718/j.cnki.xdzk.2024.05.016 CrossRef Google Scholar
[20]	王雨婷, 梁旭鹏, 许国良, 等. 基于混合运动激励和时序增强的篮球运动员动作识别算法[J]. 重庆邮电大学学报(自然科学版), 2024, 36(2): 307-318. Google Scholar
[21]	WANG X Y, LIU J. Spatially Regularized Leaky ReLU in Dual Space for CNN Based Image Segmentation [J]. Inverse Problems and Imaging, 2024, 18(6): 1320-1342. doi: 10.3934/ipi.2024016 CrossRef Google Scholar
[22]	赵凤, 耿苗苗, 刘汉强, 等. 卷积神经网络与视觉Transformer联合驱动的跨层多尺度融合网络高光谱图像分类方法[J]. 电子与信息学报, 2024, 46(5): 2237-2248. Google Scholar
[23]	许才顼, 贺杰, 庞家豪. 基于卷积神经网络的分形图像编码研究[J]. 计算机仿真, 2024, 41(8): 210-214. Google Scholar
[24]	刘悦, 张雷, 辛山, 等. 融入时空注意力机制的深度学习网络视频动作分类[J]. 中国科技论文, 2022, 17(3): 281-287. Google Scholar
[25]	李昊, 曹书瑜, 陈亚青, 等. 基于注意力机制的用户轨迹识别模型[J]. 计算机科学, 2022, 49(3): 308-312. Google Scholar
[26]	陈广秋, 尹文卿, 温奇璋, 等. 基于双重注意力机制生成对抗网络的偏振图像融合[J]. 电子测量与仪器学报, 2024, 38(4): 140-150. Google Scholar
[27]	夏晓华, 钟预全, 胡鹏, 等. 综合多尺度信息和注意力机制的水下图像增强[J]. 光学精密工程, 2024, 32(10): 1582-1594. Google Scholar
[28]	王冲, 魏子令, 陈曙晖. 基于自注意力机制的无边界应用动作识别方法[J]. 计算机研究与发展, 2022, 59(5): 1092-1104. Google Scholar
[29]	杜芳芳, 王福忠, 高继梅. 空洞卷积网络下微表情实时识别方法仿真[J]. 计算机仿真, 2023, 40(7): 172-175, 461. Google Scholar
[30]	陈善学, 许少华. 基于图拉普拉斯正则化的柯西非负矩阵分解高光谱解混[J]. 激光与光电子学进展, 2024, 61(14): 278-288. Google Scholar
[31]	BEHERA S, CONTRERAS-REYES J E, KAYAL S. Mutual Information Matrix and Global Measure based on Tsallis entropy [J]. Nonlinear Dynamics, 2025, 113(6): 5239-5249. doi: 10.1007/s11071-024-10469-2 CrossRef Google Scholar
[32]	王悦天, 傅司超, 彭勤牧, 等. 半监督场景下多视角信息交互的图卷积神经网络[J]. 软件学报, 2024, 35(11): 5098-5115. Google Scholar

Message Board

Optimization of Eye Movement Trajectory Tracking for Tennis Players Based on Video Image Threshold Segmentation

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors