可穿戴生理传感器驱动的深度学习情绪识别模型在心理健康评估中的应用

石敏; 许莉钧; 彭华东

doi:10.13718/j.cnki.xdzk.2024.12.018

可穿戴生理传感器驱动的深度学习情绪识别模型在心理健康评估中的应用

1.
福州外语外贸学院教育学院，福州 350202

2.
南京工程学院艺术与设计学院，南京 211167

3.
福州外语外贸学院艺术与设计学院，福州 350202

基金项目: 国家自然科学基金项目(61702225)；2023年江苏省研究生教育教学改革项目(2023YJYJG02)；福州外语外贸学院课题(FWKQJ201910)

详细信息

作者简介:
石敏，博士，副教授，主要从事工业设计和感性工学研究 .

中图分类号: TP393

Application of Wearable Physiological Sensor-Driven Deep Learning Emotion Recognition Model in Mental Health Assessment

1.
School of Education, Fuzhou University of International Studies and Trade, Fuzhou 350202, China

2.
Institute of Art and Design, Nanjing Institute of Technology, Nanjing 211167, China

3.
School of Art and Design, Fuzhou University of International Studies and Trade, Fuzhou 350202, China

摘要:
准确的情绪识别对心理健康问题的早期诊断和干预具有重要意义. 可穿戴生理传感器在情绪识别中展现出创新性的技术应用. 然而，整合多种生理信号检测情绪是一项复杂而充满挑战的任务. 针对这些挑战，提出了一种深度学习模型驱动的时间多模态融合方法，以捕捉脑电图(EEG)和血容量脉搏(BVP)信号之间以及内部的非线性情绪相关性，并提高情绪分类性能. 采用端到端的时间多模态深度学习模型，将来自轻量级传感器的EEG和BVP信号进行融合，以执行情绪识别任务. 通过使用卷积神经网络(ConvNet)和长短期记忆网络(LSTM)模型，研究整合EEG和BVP信号，共同学习并探索跨模态高度相关的表示形式. 通过智能可穿戴传感器收集数据集验证时间多模态融合方法，并与最新研究结果进行比较. 实验结果表明，该方法在情绪唤醒度估计上取得了89.16%的准确率，与其他先进方法达到了相似水平. 将该方法应用于焦虑治疗评估，以验证深度学习技术在心理健康应用中的有效性. 实验结果表明，该方法成功提取了愉悦和唤醒估计值，有效评估了时间域内的不同情绪变化，为心理健康研究和治疗提供了有益的参考.
- 情绪识别 /
- 深度学习 /
- 智能穿戴 /
- 生理信号 /
- 心理健康
Abstract:
Accurate emotion recognition has significant implications for the early diagnosis and intervention of mental health issues. Wearable physiological sensors have exhibited innovative technological applications in emotion recognition. However, integrating various physiological signals to detect emotions is a complex and challenging task. In response to these challenges, this paper proposes a deep learning model-driven time multimodal fusion approach to capture the nonlinear emotion correlations both internally and between electroencephalogram (EEG) and blood volume pulse (BVP) signals, and enhance emotion classification performance. The study employs an end-to-end time multimodal deep learning model, fusing EEG and BVP signals from lightweight sensors to perform emotion recognition tasks. Specifically, by utilizing Convolutional Neural Network (ConvNet) and Long Short-Term Memory (LSTM) models, this research integrates EEG and BVP signals, jointly learning and exploring highly correlated representations across modalities. The proposed multimodal fusion method is validated using a dataset collected through intelligent wearable sensors and compared with the latest research results. Experimental results demonstrate that the proposed method achieves an accuracy of 89.16% in estimating arousal levels, reaching a comparable level to other advanced methods. Additionally, this study applies the method for anxiety therapy assessment to validate the effectiveness of deep learning technology in mental health applications. Experimental results indicate that the proposed method successfully extracts valence and arousal estimates, and effectively evaluates different emotional changes in the time domain, providing valuable insights for mental health research and treatment.
- emotion recognition /
- deep learning /
- wearable technology /
- physiological signals /
- mental health .

图 1 ConvNet LSTM早期融合的时间多模态深度学习流程图

下载: 全尺寸图片幻灯片

图 2 ConvNet LSTM后期融合的时间多模态深度学习流程图

下载: 全尺寸图片幻灯片

图 3 ConvNet架构的两个模块

下载: 全尺寸图片幻灯片

图 4 Emotiv Insight耳机和Empatica E4腕带

下载: 全尺寸图片幻灯片

图 5 Emotiv传感器5个通道位置示意图

下载: 全尺寸图片幻灯片

图 6 情绪诱发的实验方案图

下载: 全尺寸图片幻灯片

图 7 所有患者治疗前(蓝色)和治疗后(黄色)的愉悦和唤醒情绪变化

下载: 全尺寸图片幻灯片

表 1 消融实验对比结果 %

标签	模式
标签	EEG信号	BVP信号	多模态
愉悦	57.3	54.1	67.2
唤醒	75.2	76.1	84.0
快乐	65.1	66.2	73.9
兴奋	72.5	69.2	81.3
中性	47.8	44.5	56.6
愤怒	36.4	33.1	45.2
沮丧	52.9	49.6	61.7
抑郁	55.7	52.4	64.5
悲伤	42.2	38.9	51.0
镇定	70.4	67.1	79.2
平静	71.6	68.3	80.4
平均值	58.8	56.3	67.7

下载: 导出CSV

表 2 本文模型与基线模型在不同情绪维度上的对比 %

标签	模型
标签	文献[17]模型	文献[18]模型	本文模型
愉悦	66.8	69.9	70.7
唤醒	77.2	78.3	83.4
快乐	78.7	79.8	82.6
兴奋	53.8	54.9	57.2
中性	88.7	86.8	91.1
愤怒	88.6	87.1	94.7
沮丧	78.4	79.5	86.3
抑郁	66.5	65.6	67.9
悲伤	67.8	68.9	73.2
镇定	69.5	71.2	72.9
平静	72.1	74.7	75.5
平均值	73.5	74.2	77.8

下载: 导出CSV

表 3 与其他最新研究的准确性比较

方法	模式	愉悦度/%	唤醒度/%
雪雯等^[5]	面部表情和EEG信号	47.65	58.76
范习健等^[6]	面部表情和声音	43.24	60.38
Cha等^[7]	EMG信号	40.57	55.29
Pinto等^[8]	多模态	68.72	66.35
Dzedzickis等^[9]	多模态	75.44	75.77
Skaramagkas等^[11]	多模态	77.36	90.43
Arpaia等^[13]	多模态	85.28	85.71
本文方法	多模态	84.81	89.16

下载: 导出CSV

[1]	杨集梅, 柴洁余, 邱天龙, 等. 共情与中国民族音乐情绪识别的关系: 来自ERP的证据[J]. 心理学报, 2022, 54(10): 1181-1192.
[2]	邬宇涵, 苏茜, 貟蓓, 等. 心理测评系统在人才测评中应用进展及启示[J]. 护理学报, 2022, 29(21): 27-31.
[3]	刘欢欢, 王朝晖, 叶勤文, 等. 可穿戴技术在情绪识别中的应用进展及发展趋势[J]. 纺织学报, 2022, 43(8): 197-205.
[4]	程洪, 黄瑞, 邱静, 等. 人机智能技术及系统研究进展综述[J]. 智能系统学报, 2020, 15(2): 386-398.
[5]	雪雯, 陈景霞, 胡凯蕾, 等. 基于EEG和面部视频的多模态连续情感识别[J]. 陕西科技大学学报, 2024, 42(1): 169-176.
[6]	范习健, 杨绪兵, 张礼, 等. 一种融合视觉和听觉信息的双模态情感识别算法[J]. 南京大学学报(自然科学), 2021, 57(2): 309-317.
[7]	CHA H S, IM C H. Performance Enhancement of Facial Electromyogram-Based Facial-Expression Recognition for Social Virtual Reality Applications Using Linear Discriminant Analysis Adaptation[J]. Virtual Reality, 2022, 26(1): 385-398. doi: 10.1007/s10055-021-00575-6
[8]	PINTO G, CARVALHO J M, BARROS F, et al. Multimodal Emotion Evaluation: A Physiological Model for Cost-Effective Emotion Classification[J]. Sensors, 2020, 20(12): 3510. doi: 10.3390/s20123510
[9]	DZEDZICKIS A, KAKLAUSKAS A, BUCINSKAS V. Human Emotion Recognition: Review of Sensors and Methods[J]. Sensors, 2020, 20(3): 592. doi: 10.3390/s20030592
[10]	PRABHAKARAN S, AYYAMPERUMAL N K. Automatic Detection of Artifacts and Improved Classification Models for Emotional Activity Detection from Multimodal Physiological Data[J]. Journal of Intelligent & Fuzzy Systems, 2023, 45(5): 8915-8929.
[11]	SKARAMAGKAS V, KTISTAKIS E, MANOUSOS D, et al. ESEE-D: Emotional State Estimation Based on Eye-Tracking Dataset[J]. Brain Sciences, 2023, 13(4): 589. doi: 10.3390/brainsci13040589
[12]	YIN G H, SUN S Q, YU D, et al. A Multimodal Framework for Large-Scale Emotion Recognition by Fusing Music and Electrodermal Activity Signals[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2022, 18(3): 1-23.
[13]	ARPAIA P, CRAUSO F, DE BENEDETTO E, et al. Soft Transducer for Patient's Vitals Telemonitoring with Deep Learning-Based Personalized Anomaly Detection[J]. Sensors, 2022, 22(2): 536. doi: 10.3390/s22020536
[14]	HASNUL M A, AZIZ N A A, ALELYANI S, et al. Electrocardiogram-Based Emotion Recognition Systems and Their Applications in Healthcare-A Review[J]. Sensors, 2021, 21(15): 5015. doi: 10.3390/s21155015
[15]	TAN C, CEBALLOS G, KASABOV N, et al. Fusion Sense: Emotion Classification Using Feature Fusion of Multimodal Data and Deep Learning in a Brain-Inspired Spiking Neural Network[J]. Sensors, 2020, 20(18): 5328. doi: 10.3390/s20185328
[16]	SHARMA A, SHARMA K, KUMAR A. Real-Time Emotional Health Detection Using Fine-Tuned Transfer Networks with Multimodal Fusion[J]. Neural Computing and Applications, 2023, 35(31): 22935-22948. doi: 10.1007/s00521-022-06913-2
[17]	YAN X C, LIN Z H, LIN Z Y, et al. A Novel Exploitative and Explorative GWO-SVM Algorithm for Smart Emotion Recognition[J]. IEEE Internet of Things Journal, 2023, 10(11): 9999-10011. doi: 10.1109/JIOT.2023.3235356
[18]	ASADZADEH S, REZAⅡ T Y, BEHESHTI S, et al. Accurate Emotion Recognition Utilizing Extracted EEG Sources as Graph Neural Network Nodes[J]. Cognitive Computation, 2023, 15(1): 176-189. doi: 10.1007/s12559-022-10077-5

图( 7) 表( 3)

计量

文章访问数: 13010
HTML全文浏览数: 13010
PDF下载数: 3243
施引文献: 0

全文HTML

开放科学(资源服务)标识码(OSID):
情绪是人类行为中至关重要的因素，对每一个社会行为都产生影响. 情绪识别一直是研究领域中蓬勃发展的话题，因为它涉及到人际互动，从而有助于通过工程学、心理学和认知科学更好地理解人类的情绪状态^[1]. 通过这些方法进行情绪识别有助于在不使用外部医疗设备的情况下准确地理解心理健康和人类行为. 情绪识别具有广泛的应用价值，例如可以帮助监测危急情况下个体的情绪状态，在临床环境中可用于监测患者的心理状况，在娱乐/视频游戏行业中可用于识别用户对特定视频、电影剪辑或游戏的情感反应，在消费者服务行业中则可以通过辨识用户对产品的反馈来改善营销策略或提升用户体验.

在心理学和精神医学领域，情绪在塑造人类行为、决策以及与他人互动方面扮演着至关重要的角色. 情绪识别作为心理治疗的一部分，有助于及时发现和治疗情绪和精神障碍. 对于某些心理障碍，如创伤后应激障碍(PTSD)或自闭症谱系障碍(ASD)等，当个体无法有效表达其情感状态时，情绪识别技术可以帮助医生和治疗师更好地了解患者的情感需求，进而制定更具针对性的治疗计划. 从经济角度来看，影响识别系统也是有益的. 例如，欧盟心理健康报告统计数据显示，欧洲每年因工作引起抑郁症所产生的成本高达数千亿欧元.

以往的研究已经验证了负面情绪与心血管疾病之间的关联. 愤怒、焦虑或抑郁等负面情绪是心血管疾病患者的重要心理危险因素. 这些负面情绪会引发生理反应，如高心率、高血压和低心率变异性(HRV)，从而导致心血管疾病发作和死亡风险增加. INTERHEART研究招募了来自52个国家的24 767名受试者，结果显示33%的急性心肌梗死事件可归因于社会心理危险因素，超过了与其他风险因素(如糖尿病、吸烟、肥胖以及不良饮食习惯和久坐不动)相关联的影响. 此外，该项调查还发现抑郁和焦虑患者表现出脑电图皮层多动和额叶α波不对称性显著增加. 然而，在探索使用多种生理信号监测情绪对待有心血管系统问题患者时，并没有太多相关的文献可借鉴. 从心理健康角度出发，检测人类情绪与生理反应之间的关联具有重要意义.

随着人工智能的出现，利用多模态信号解决情感识别问题是情感计算的新兴趋势. 多项研究利用最先进的深度学习方法，结合生理信号，如心电图(ECG)、EEG、皮肤温度以及面部表情、声音、姿势等，对情绪进行分类识别. 此外，使用轻量级人体可穿戴传感器和先进的机器学习技术自动情绪识别已应用于不同的领域，如电脑游戏^[2]、电子健康^[3]和道路安全^[4]. 然而，尽管情感计算作为一个科学领域已经确立了几十年，情感系统仍未成为我们日常生活的一部分. 原因之一是可穿戴传感器数据与人体心理、生理状态之间的关系，并不像可穿戴传感器数据与人体物理状态之间的关系那样明确. 例如，智能手机可以计算步数并识别人类的身体活动(例如，跑步与步行)，但无法高精度地识别情绪和相关情感状态(例如，认知负荷). 人们能够使用智能健身设备监测运动和运动强度，但其在捕捉个体的复杂情感状态，如心情变化和焦虑水平方面仍然存在困难.

研究表明，多模态数据能够显著提升情绪分类识别性能. 不同来源的数据之间存在相互关联，可为个体情绪提供互补信息. 为了捕捉这种信息，使用一组紧凑的潜在变量来捕获模态之间的相关性至关重要. 然而，在各种异质生理数据中学习潜在情绪信息是一个具有挑战性的问题，这是因为不同生理信号由异构时间序列数据组成，并且随着时间推移，模态内部和模态之间存在某些情绪结构.

为了充分发挥多模态生理信号的优势，构建一个更加准确和具备鲁棒性的情绪识别系统，需要建立一种多模态融合模型. 该模型能够捕捉每个模态内部以及模态之间的内在变化，并且具备处理不同类型数据的能力. 因此，在可穿戴生理传感器和深度学习基础上，本文提出一种时间多模态融合模型，旨在提高可穿戴传感器的多模态生理信号情绪分类性能.

本文的创新之处/新颖点在于：

1) 引入一种时间多模态融合方法，旨在捕捉脑电图(EEG)和血容量脉搏(BVP)信号之间以及内部的非线性情绪相关性，从而提高情绪分类性能.

2) 通过使用卷积神经网络(ConvNet)长短期记忆(LSTM)模型，本文方法能够在时间上融合不同的生理信号，从而更全面地理解情感的时间结构.

3) 通过端到端的方式进行情感识别，使用深度学习模型一次性学习每个模态的特征，然后共同学习和探索跨模态的情感相关表示. 这种端到端的方法有助于简化模型设计和训练流程，并提高情感识别的性能.

4) 本文不仅仅停留在情感计算的理论层面，还将提出的方法应用于焦虑疗法评估，拓展了情感计算技术在心理健康领域的实际应用范围.

1. 理论分析与研究现状

1.1. 情绪定义和生理信号研究

在许多与情感相关的研究中，通过使用基于情感圆环模型的二维情感分类模型，将人类情感分为唤醒和愉悦两个维度，并将支配性应用于二维和三维扩展的情感模型. 在当前研究中，推断情绪状态的常用方法包括多种途径，如面部表情、言语、身体手势和生理信号等. 尽管面部表情因其直观性越来越受欢迎，但与其他方式相比，生理信号具备独特的优势. ①在可用性方面不断增强，并且目前可穿戴设备的兴起也为其提供了更广泛的应用场景. ②对外界视觉噪声(如照明)有较高的抵抗能力，因此非常稳定且具有广泛的适应性. ③保真度高，很难复制或掩盖这些信号来模拟特定情绪. ④由于尺寸结构相对较小，可以提高加工效率.

生理信号可以通过非侵入式传感器和可穿戴设备轻松测量，包括ECG、肌电图(EMG)、EEG、皮肤电反应(GSR)、皮肤温度(SKT)和呼吸频率(RSP)等多种与人类情感密切相关的信号. 不同的研究采用不同数量的信号；一些研究者使用7个生理信号来进行情感分类，而有些研究者则仅利用EEG信号进行情感分类. 许多情感分类研究已通过结合各种类型的信号、获取两个或更多信号(即多模态信号)得到实施. 多模态信号是由具有多种感觉模式的信号组件构成，有许多方法可以应用于多模态信号. 雪雯等^[5]运用面部表情和EEG信号进行了情感识别和分析，范习健等^[6]则利用面部表情和声音进行了情感识别和分析. 需要注意的是，虽然在相同条件下重复实验可能会导致结果差异，但这并非与使用的特征数量直接相关.

此外，Cha等^[7]对EMG活动进行了线性判别分析，最早使用生理数据进行自动情绪估计，指出个体生物信号与情绪活动之间存在相关性. Pinto等^[8]提出一种多模态方法，结合了4种不同的模态：心率、皮肤电导(EDA)、呼吸和EMG. 通过这些更广泛的数据，取得了相对更好的结果.

Dzedzickis等^[9]设计了一个实验，在其中引入包含特定类型情绪剪辑的影片供参与者观看. 他们采用k最近邻算法、判别函数分析和Marquardt反向传播算法，并利用了来自多个模态的特征(如GSR、温度和心率). Prabhakaran等^[10]则采用支持向量机(SVM)分类器，运用基于小波特征的EDA信号执行一种自动化情感分类方法. 另一方面，Skaramagkas等^[11]引入了eSEE-d数据库，利用深度多层感知器(DMLP)网络对眼动和凝视特征进行分类，并实现了对情感激发视频中的情感唤起和愉悦度水平的准确识别.

由于缺乏大量数据进行比较，Yin等^[12]创建了DEAP数据集，该数据集提供了大量的反应特征，如ECG、GSR或EDA、眼电图(EOG)和EMG，以扩大分析此类反应的可能性. Arpaia等^[13]利用该数据集，进一步引入双模深度去噪自编码器，以双模LSTM为瓶颈提取生物信号和视觉信息的高级表示，分析附加时间信息的影响. Hasnul等^[14]的研究进一步探讨了从生物信号中构建潜在特征的可行性，并有效压缩了类似ECG的数据. 然而，迄今为止这些方法还没有完全分析和量化提取出来的生物潜在特征对最终模型估计的重要性.

1.2. 多模态情绪识别

尽管大多数用于情绪识别的机器学习和深度学习框架都使用来自一种模式的数据，即视频、音频或EEG，但最近研究者对上述模式的数据产生了相当大的兴趣. 传感器数据融合在提高情感检测的可靠性和准确性方面具有极大的优势，且多模态系统已显示出优于单模态系统的性能^[15]. 多模态融合将来自许多不同类型传感器的数据结合在一起，这样的融合主要在两个不同的水平上执行，即特征级融合和决策级融合^[16].

1.2.1. 特征级融合

在特征级融合方法(早期融合)中，从不同模态派生的特征被组合成一个特征向量，然后可以在该向量上训练分类器. 人类在面对面的互动中使用和整合多种感官线索来检测情感状态，这是特征级融合背后的基本思想. 特征级融合的主要优点是，在早期阶段多模态特征之间的关联可以带来更好的性能，只需要在特征向量上进行一个学习阶段. 然而，特征级融合也存在一些挑战. 由于从不同模态获得的特征可能具有不同的时间尺度，因此将特征同步到相同格式可能会面临困难且计算昂贵. 由于使用特征级融合获得了大量的特征集，如果训练数据集有限，分类准确性可能会受到严重影响. 此外，学习异构特征之间的交叉相关性也存在较大的困难.

1.2.2. 决策级融合

在决策级融合方法(后期融合)中，首先获取基于每种模态派生特征所做出的决策，然后利用局部决策得到融合决策向量，且该向量可用于最终的决策或分类. 与特征级融合相比，决策级融合具有明显的优势，因为所有的决策都具有统一格式，从而可以轻松整合以避免同步问题. 此外，在采用决策级融合时还能够根据不同模态应用最佳分类器或方法，提供更大灵活性. 已经有研究注意到，在情感研究中常使用决策水平融合，并且研究人员更倾向于选择这种类型的融合方式而非特征级融合.

4. 结论

基于生理信号的人类情绪识别研究在学术界和应用领域正受到日益广泛的关注. 本文通过可穿戴生理传感器和深度学习技术，构建了一个时间多模态融合模型，旨在实现对情绪的准确识别. 通过记录患者的EEG和血容量BVP信号，构建了一个全面的多模态数据库，覆盖了整个治疗周期. 本文所提出的模型采用了ConvNet LSTM网络，能够在时间上捕捉EEG和BVP生理信号之间的跨模态情绪相关性. 深度学习的应用使得该模型能够学习非线性情绪结构，并提高情绪分类性能. 与其他相关研究相比，实验结果表明了该模型的优越性. 此外，通过焦虑疗法评估实验，本文模型成功地展示了患者情绪状态的理想演变趋势，并突显了在实际应用中的潜力. 这项研究不仅为构建情绪识别系统提供了先进的技术思路，同时也为心理健康领域的实际应用提供了有益的参考和指导.

虽然本文模型在分类精度方面表现不错，但与最新的研究方法相比，在跨学科实验精度方面仍有很大的提升空间. 未来，我们将继续探索不同模态之间更深层次特征之间的关系，并研究更优化的融合方法，进一步提高多模态情绪识别性能. 此外，我们还将从模型结构和特征上进行优化改进，提取更加优质的手动特征，改善模型结构并降低复杂度，提高分类精度.

参考文献 (18)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

可穿戴生理传感器驱动的深度学习情绪识别模型在心理健康评估中的应用

1.
福州外语外贸学院教育学院，福州 350202

2.
南京工程学院艺术与设计学院，南京 211167

3.
福州外语外贸学院艺术与设计学院，福州 350202

作者简介:
石敏，博士，副教授，主要从事工业设计和感性工学研究 .

Application of Wearable Physiological Sensor-Driven Deep Learning Emotion Recognition Model in Mental Health Assessment

1.
School of Education, Fuzhou University of International Studies and Trade, Fuzhou 350202, China

2.
Institute of Art and Design, Nanjing Institute of Technology, Nanjing 211167, China

3.
School of Art and Design, Fuzhou University of International Studies and Trade, Fuzhou 350202, China

计量

可穿戴生理传感器驱动的深度学习情绪识别模型在心理健康评估中的应用

作者简介: 石敏，博士，副教授，主要从事工业设计和感性工学研究
1. 福州外语外贸学院教育学院，福州 350202

2. 南京工程学院艺术与设计学院，南京 211167

3. 福州外语外贸学院艺术与设计学院，福州 350202

English Abstract