基于图像语义分割的菜品浪费度检测

普京; 祝诗平; 苗宇杰; 唐鑫; 郑权; 黄华

doi:10.13718/j.cnki.xdzk.2023.04.018

基于图像语义分割的菜品浪费度检测

西南大学工程技术学院，重庆 400715

基金项目: 教育部科技发展中心产学研创新基金德州专项(2021DZ005)

详细信息

作者简介:
普京，硕士研究生，主要从事智能检测与控制研究 .

通讯作者: 祝诗平，教授，博士研究生导师;

中图分类号: TP399

Detection of the Degree of Dish Waste Based on Image Semantic Segmentation

College of Engineering and Technology, Southwest University, Chongqing 400715, China

摘要: 对菜品浪费进行检测可以帮助餐馆调整菜单结构，做到从源头上减少浪费. 提出一种基于语义分割技术的菜品浪费度检测方法，使用Swin Transformer和UperNet作为分割框架，并在UperNet的基础上进行了改进，即在UperNet的双线性插值层之前增加了一层转置卷积，改进的模型在测试集上的菜品图像分割平均交并比可以达到93.30%; 同时根据菜品食用前后分割面积比的统计信息制定了浪费度等级，将菜品浪费程度划分为严重浪费、很浪费、一般浪费、轻度浪费和无浪费5个等级，并在测试集1 782个菜品样本上进行了检测，浪费度等级的识别准确率可以达到95.12%. 所给出的方法可望用于餐饮浪费的检测和管理中.
- 菜品 /
- 图像 /
- 语义分割 /
- 深度学习 /
- 浪费度等级
Abstract: Detecting the waste of dishes can help restaurants to adjust the menu structure and reduce the waste from the source. This study proposed a method to detect the degree of dish waste based on semantic segmentation technology. Using Swin Transformer and UperNet as the segmentation framework, the UperNet was improved by adding a transpose convolution layer before the bilinear interpolation layer of the UperNet. Finally, the average intersection over union of the improved model on the test set for image segmentation can reach 93.30%. In addition, according to the statistical information of the segmented area ratio of dishes before and after consumption in the training and verification set, this paper also formulated the category of the waste, which divided the waste degree of dishes into five grades: serious waste, very waste, general waste, mild waste, and no waste. Of 1 782 dish samples tested, the accuracy rate of waste degree identification can reach 95.12%. The method presented in this paper is expected to be used in the detection and management of food waste in the future.
- dishes /
- image /
- semantic segmentation /
- deep learning /
- degree of waste .

图 1 菜品图像变化过程

下载: 全尺寸图片幻灯片

图 2 菜品种类

下载: 全尺寸图片幻灯片

图 3 每一类菜品数量分布情况

下载: 全尺寸图片幻灯片

图 4 菜品原图和分割掩码图

下载: 全尺寸图片幻灯片

图 5 菜品图像数据增强

下载: 全尺寸图片幻灯片

图 6 Swin-T+M-UperNet模型结构

下载: 全尺寸图片幻灯片

图 7 理想浪费度变化直线与实际浪费度变化直线

下载: 全尺寸图片幻灯片

图 8 浪费度变化直线

下载: 全尺寸图片幻灯片

图 9 浪费度检测流程

下载: 全尺寸图片幻灯片

图 10 混淆矩阵

下载: 全尺寸图片幻灯片

表 1 理想情况下浪费度等级的划分

区间	$y_1<\frac{S_i}{S_0} \leqslant y_0$	$y_2<\frac{S_i}{S_0} \leqslant y_1$	$y_3<\frac{S_i}{S_0} \leqslant y_2$	$y_4<\frac{S_i}{S_0} \leqslant y_3$	$\frac{S_i}{S_0}=y_4$
浪费度等级	严重浪费	很浪费	一般浪费	轻度浪费	无浪费

下载: 导出CSV

表 2 实际情况下浪费度等级的划分

区间	$y_1^{\prime}=0.81<\frac{S_i}{S_0}$	$y_2^{\prime}=0.56<\frac{S_i}{S_0} \leqslant y_1^{\prime}=0.81$	$y_3^{\prime}=0.32<\frac{S_i}{S_0} \leqslant y_2^{\prime}=0.56$	$y_4^{\prime}=0<\frac{S_i}{S_0} \leqslant y_3^{\prime}=0.32$	$\frac{S_i}{S_0}=0=y_4^{\prime}$
浪费度等级	严重浪费	很浪费	一般浪费	轻度浪费	无浪费

下载: 导出CSV

表 3 模型在测试集上的语义分割评价指标

模型	m_AP/%	m_IOU/%	F₁/%
DeepLabV3+	95.92	91.30	95.37
PSPNet	94.43	89.63	94.46
Swin-T+UperNet	95.66	92.28	95.96
Swin-T+M-UperNet	96.72	93.30	96.51

下载: 导出CSV

[1]	李贺, 李鸣晓, 孟繁华, 等. 我国餐厅食物浪费现状调查及影响因素分析[J]. 环境工程技术学报, 2021, 11(5): 898-907. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-HKWZ202105008.htm
[2]	WANG L E, LIU G, LIU X, et al. The Weight of Unfinished Plate: a Survey Based Characterization of Restaurant Food Waste in Chinese Cities [J]. Waste Management, 2017, 66: 3-12. doi: 10.1016/j.wasman.2017.04.007
[3]	YANG Y, BAO W, XIE G H. Estimate of Restaurant Food Waste and Its Biogas Production Potential in China [J]. Journal of Cleaner Production, 2019, 211: 309-320. doi: 10.1016/j.jclepro.2018.11.160
[4]	CHEN H, JIANG W, YANG Y, et al. State of the Art on Food Waste Research: a Bibliometrics Study from 1997 to 2014 [J]. Journal of Cleaner Production, 2017, 140: 840-846. doi: 10.1016/j.jclepro.2015.11.085
[5]	LANG L, WANG Y, CHEN X, et al. Awareness of Food Waste Recycling in Restaurants: Evidence from China [J]. Resources, Conservation and Recycling, 2020, 161: 104949. doi: 10.1016/j.resconrec.2020.104949
[6]	CHEN J J, NGO C W. Deep-Based Ingredient Recognition for Cooking Recipe Retrieval [C] //Proceedings of the 24th ACM international conference on Multimedia. Amsterdam, The Netherlands. New York: ACM, 2016: 32-41.
[7]	王晓朋. 精细粒度的菜品识别方法研究[D]. 成都: 电子科技大学, 2020.
[8]	吴正东. 基于深度学习的中餐菜品图像分类算法研究[D]. 成都: 电子科技大学, 2020.
[9]	何杰. 基于集成深度卷积神经网络的中餐菜品识别[D]. 广州: 华南理工大学, 2018.
[10]	EGE T, YANAI K. Simultaneous Estimation of Dish Locations and Calories with Multi-Task Learning [J]. IEICE Transactions on Information and Systems, 2019(7): 1240-1246.
[11]	姚华莹, 彭亚雄, 陆安江. 基于轻量化SSD的菜品识别[J]. 智能计算机与应用, 2021, 11(8): 23-30. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-DLXZ202108007.htm
[12]	POPLY P, ARUL JOTHI J A. Refined Image Segmentation for Calorie Estimation of Multiple-Dish Food Items [C] //2021 International Conference on Computing, Communication, and Intelligent Systems (ICCCIS). Greater Noida, India. IEEE, 2021: 682-687.
[13]	OKAMOTO K, ADACHI K, YANAI K. Region-Based Food Calorie Estimation for Multiple-Dish Meals [C] //Proceedings of the 13th International Workshop on Multimedia for Cooking and Eating Activities. New York: ACM, 2021: 17-24.
[14]	YANG Z, PENG X B, YIN Z J, et al. Deeplab_v3_plus-Net for Image Semantic Segmentation with Channel Compression [C] //2020 IEEE 20th International Conference on Communication Technology (ICCT). Nanning, China. IEEE, 2020: 1320-1324.
[15]	HIPPOCRATE E A A, SUWA H, ARAKAWA Y, et al. Food Weight Estimation Using Smartphone and Cutlery [C] //Proceedings of the First Workshop on IoT-enabled Healthcare and Wellness Technologies and Systems. Singapore, Singapore. New York: ACM, 2016: 9-14.
[16]	CHEN M Y, YANG Y H, HO C J, et al. Automatic ChineseFood Identification and Quantity Estimation [C] //SA '12: SIGGRAPH Asia 2012 Technical Briefs. Singapore, Singapore. New York: ACM, 2012: 1-4.
[17]	LOWE D G. DistinctiveImage Features from Scale-Invariant Keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110. doi: 10.1023/B:VISI.0000029664.99615.94
[18]	HU X H, YUAN D, SUN M G, et al. A Slice-Based Method for Food Volume Estimation [C] //Proceedings of the 2019 2nd International Conference on Algorithms, Computing and Artificial Intelligence. Sanya, China. New York: ACM, 2019: 1-6.
[19]	SHELHAMER E, LONG J, DARRELL T. Fully Convolutional Networks for Semantic Segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. doi: 10.1109/TPAMI.2016.2572683
[20]	XU B B, YANG F, YANG J F, et al. SPNet: Superpixel Pyramid Network for Scene Parsing [C] //2018 Chinese Automation Congress (CAC). Xi'an, China. IEEE, 2019: 3690-3695.
[21]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN [C] //2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 2980-2988.
[22]	LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows [C] //2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada. IEEE, 2022: 9992-10002.
[23]	ZHENG W B, YAN L, WANG F Y, et al. Progressive Knowledge-Embedded Unified Perceptual Parsing for Scene Understanding [C] //2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Nashville, TN, USA. IEEE, 2021: 1633-1642.
[24]	石洪康, 田涯涯, 杨创, 等. 基于卷积神经网络的家蚕幼虫品种智能识别研究[J]. 西南大学学报(自然科学版), 2020, 42(12): 34-45. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xdzk.2020.12.004
[25]	ZEILER M D, TAYLOR G W, FERGUS R. AdaptiveDeconvolutional Networks for Mid and High Level Feature Learning [C] //2011 International Conference on Computer Vision. Barcelona, Spain. IEEE, 2012: 2018-2025.
[26]	JADON S. ASurvey of Loss Functions for Semantic Segmentation [C] //2020 IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB). Via del Mar, Chile. IEEE, 2020: 1-7.
[27]	MINAEE S, BOYKOV Y, PORIKLI F, et al. Image Segmentation Using Deep Learning: a Survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(7): 3523-3542.
[28]	ZHAO H S, SHI J P, QI X J, et al. Pyramid Scene Parsing Network [C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 6230-6239.

图( 10) 表( 3)

计量

文章访问数: 802
HTML全文浏览数: 802
PDF下载数: 305
施引文献: 0

全文HTML

开放科学(资源服务)标志码(OSID):
粮食从农田到餐桌，需要经过种植、收获、运输和储藏等诸多环节，每一个环节都蕴含着劳动者的心血和智慧，节约粮食，我们每个人都责无旁贷. 然而，随着人们生活水平的提高和生活节奏的加快，食物浪费现象也越来越严重. 李贺等^[1]对我国餐厅食物浪费现状进行了调查研究，发现消费者餐饮浪费的主要原因为菜品不合胃口以及菜品份量大等. 据统计，近年来我国的城市餐厨垃圾产量占生活垃圾产量的55.86%，且年均增速达10%以上^[2-3]，常规的餐厨垃圾处理方法会对环境造成较大的危害^[4]. 此外，食物浪费现象也和粮食安全问题有着密切的关联，据联合国粮农组织统计，全球餐厨垃圾产量每年约为13亿t，约占年食物制造总量的1/3，这一数量足以支撑世界12%的人口摆脱饥饿^[5]，因此，从源头消减和抑制餐饮浪费十分必要.

对餐桌上的菜品浪费情况进行监测，可以帮助餐馆淘汰掉浪费程度较高的菜品，但首先需要解决菜品种类的识别问题. Chen等^[6]从网络上收集并整理了中餐菜品数据集VireoFood-172，提出了菜品种类识别以及食谱检索模型. 针对菜品图像识别过程中存在的不同类别菜品间的相似度较高(类间距离小)，而有些相同种类的菜品其颜色、形状变化较大(类间距离大)的问题，一些学者对传统的识别模型进行了改进，引进了基于细粒度的识别模型以及集成学习方法，使菜品种类的识别准确率得到提升^[7-9]. 比种类识别更进一步，一些学者研究了菜品识别中的目标检测问题^{[10, 11]}，可以定位出菜品图像边界框区域. 比菜品目标检测任务更进一步的就是菜品图像的分割问题，Poply等^[12]采用目标检测框架和语义分割模型相结合的方式对菜品图像进行了分割，并由先验知识估计出菜品的体积和质量，从而进一步估算出菜品所含热量. Okamoto等^[13]从网络上收集菜品所含的热量信息，采用有监督学习的方式，在DeepLab V3+^[14]的基础上进行了改进，融合了菜品图像分割和菜品所含热量估计的任务.

很多学者都对菜品图像的种类识别、目标检测以及分割问题进行了探讨，然而针对菜品浪费度的检测问题目前还鲜有报道. 对菜品浪费情况进行检测，一种可能的方法就是估计出菜品的质量或体积，Hippocrate等^[15]借助手机相机和餐具(如筷子)来估计食物的质量，进而估计食物所含的热量，但该方法是通过测算碗的体积，并提供特定食物的密度信息来估计食物质量，也就是说该方法只能估计盛满食物状态下的质量，而无法估计未盛满时的质量，因此很难应用于食物浪费情况的检测中. Chen等^[16]通过SIFT^[17]特征提取的方法来识别菜品种类，并用深度相机来估计食物体积，但不同食物对红外线的折射与反射效果不同，深度相机发出的红外线很容易受到影响，导致测量结果不准确. Hu等^[18]采用了三维点云技术对食物的体积进行估计，但该方法需要采集到多个视觉下的图像并对场景进行三维重构，对图像采集的条件也较为苛刻，所采集食物的形状也要求较为规则，因此也很难应用于菜品浪费检测中.

针对以上问题，本文提出了通过语义分割技术来检测菜品的浪费程度，根据菜品食用前后分割得到的像素面积之比来衡量菜品的浪费程度，并根据训练集和验证集上菜品食用前后分割得到的像素面积比的统计信息，制定相应的浪费度等级. 在图像语义分割领域，自全卷积神经网络FCN^[19]提出以来，深度学习方法在图像分割领域的应用变得越来越流行，后续也出现了一系列优秀的基于卷积神经网络的分割结构^{[14, 20-21]}，Liu等^[22]提出了基于移动窗口的自注意力模型Swin Transformer，该模型在计算机视觉的下游任务(如目标检测和语义分割)上取得了优异的成就，在大数据集上的实验结果表明其性能优于卷积神经网络结构，因此，本文选用Swin Transformer结构作为主干特征提取网络，解码器部分则在UperNet^[23]的基础上进行了改进，在双线性插值层之前增加了一层转置卷积操作，进一步提高了菜品图像的分割效果.

3. 结论

本文将图像语义分割算法应用于菜品浪费度检测中，在Swin Transformer和UperNet结构的基础上进行改进，增加了一层转置卷积，并与传统的以卷积神经网络为特征提取结构的模型进行了比较. 在测试集上的分割结果表明，以Transformer为特征提取结构的模型分割效果较好，改进的Swin-T+M-UperNet模型相较于原来的Swin-T+UperNet模型分割效果更优，在测试集上的平均交并比可以达到93.30%，提升了1.02%.

本文还根据训练集和验证集上菜品食用前后分割面积比的统计信息制定出了浪费度等级，首先在理想直线上划分出浪费度等级的分隔点，然后求出理想直线到实际直线间的变换关系，根据该变换关系求出实际直线上对应的分隔点，按照分隔点的划分阈值，将菜品的浪费程度划分为严重浪费、很浪费、一般浪费、轻度浪费和无浪费5个等级，同时提出了菜品浪费度检测的流程和方法，最终在测试集上的浪费度等级识别准确率能达到95.12%. 本文提出的检测方法具有一定的合理性，为餐饮浪费的检测和管理提供了一种可行的技术方法，可以帮助餐厅监测菜品的浪费程度，并从菜单里淘汰掉一些浪费程度较高的菜品，保留浪费度较低的菜品，从而做到从源头上减少浪费，也可以帮助优化餐馆的进货清单，提升餐馆的经济效益.

本文所研究的菜品对象在食用过程中像素分割面积呈现递减的趋势，但对于一些在食用过程中质量减少而像素分割面积变化很小的菜品(如汤类菜品)，该方法还有一定的局限性，对此类菜品的检测还有待进一步去探索.

参考文献 (28)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于图像语义分割的菜品浪费度检测

西南大学工程技术学院，重庆 400715

作者简介:
普京，硕士研究生，主要从事智能检测与控制研究 .

通讯作者: 祝诗平，教授，博士研究生导师;

Detection of the Degree of Dish Waste Based on Image Semantic Segmentation

College of Engineering and Technology, Southwest University, Chongqing 400715, China

计量

基于图像语义分割的菜品浪费度检测

通讯作者: 祝诗平，教授，博士研究生导师;

作者简介: 普京，硕士研究生，主要从事智能检测与控制研究
西南大学工程技术学院，重庆 400715

English Abstract

Detection of the Degree of Dish Waste Based on Image Semantic Segmentation

Corresponding author: ZHU Shiping ;

全文HTML

1.1. 数据采集及数据预处理

1.1.1. 数据采集

1.1.2. 数据标注

1.1.3. 数据集划分

1.1.4. 数据增强

1.2. 菜品图像语义分割模型

1.2.1. 模型结构

1.2.2. 交叉熵损失函数

1.3. 浪费度等级定义

2.1. 模型训练结果

2.2. 浪费度检测

目录

留言板

基于图像语义分割的菜品浪费度检测

西南大学 工程技术学院，重庆 400715

作者简介: 普京，硕士研究生，主要从事智能检测与控制研究 .

通讯作者: 祝诗平，教授，博士研究生导师;

Detection of the Degree of Dish Waste Based on Image Semantic Segmentation

College of Engineering and Technology, Southwest University, Chongqing 400715, China

计量

出版历程

基于图像语义分割的菜品浪费度检测

通讯作者: 祝诗平，教授，博士研究生导师;

作者简介: 普京，硕士研究生，主要从事智能检测与控制研究 西南大学 工程技术学院，重庆 400715

English Abstract

Detection of the Degree of Dish Waste Based on Image Semantic Segmentation

Corresponding author: ZHU Shiping ;

全文HTML

1.1. 数据采集及数据预处理

1.1.1. 数据采集

1.1.2. 数据标注

1.1.3. 数据集划分

1.1.4. 数据增强

1.2. 菜品图像语义分割模型

1.2.1. 模型结构

1.2.2. 交叉熵损失函数

1.3. 浪费度等级定义

2.1. 模型训练结果

2.2. 浪费度检测

目录

西南大学工程技术学院，重庆 400715

作者简介:
普京，硕士研究生，主要从事智能检测与控制研究 .

作者简介: 普京，硕士研究生，主要从事智能检测与控制研究
西南大学工程技术学院，重庆 400715