番茄叶片病害多目标识别模型的轻量化研究

胡俊杰; 张聪; 陶章法; 梁红蕊; 张瑞特; 王正

doi:10.13718/j.cnki.xdzk.2026.05.018

番茄叶片病害多目标识别模型的轻量化研究

1.
武汉轻工大学电气与电子信息学院，湖北武汉 430048

2.
武汉轻工大学数学与计算机学院，湖北武汉 430048

3.
武汉大学计算机学院，湖北武汉 430072

基金项目: 湖北省技术创新重大项目(2018A01038)

详细信息

作者简介:
胡俊杰，硕士研究生，研究从事计算机视觉、目标检测的研究 .

通信作者: 张聪，博士，二级教授，硕士研究生导师;

中图分类号: TP391.41

Lightweight Study of a Multi-Target Recognition Model for Tomato Leaf Diseases

1.
School of Electrical and Electronic Engineering, Wuhan Polytechnic University, Wuhan Hubei 430048, China

2.
School of Mathematics and Computer Science, Wuhan PolytechnicUniversity, Wuhan Hubei 430048, China

3.
School of Computer Science, Wuhan University, Wuhan Hubei 430072, China

摘要:
针对现有番茄叶片病害识别模型存在检测目标少、计算复杂度高的问题，提出了一种结合复合卷积的目标识别改进模型。在骨干网络中对FasterNet Block进行改进，提出了轻量级多尺度特征提取模块(Dil-FasterNet block)，通过结合空洞卷积(Dilated Conv，DConv)和深度可分离卷积(Depth-Separable Convolution，DSConv)，在减少计算量的同时增强局部细节，提升捕捉图像细节信息的能力。此外，引入分组混洗卷积(Group-Shuffle Convolution，GSConv)替换原模型卷积，在颈部网络引入Slim-Neck模块，利用GS瓶颈和跨阶段部分网络(Cross Stage Partial Net，CSPNet)模块控制模型时间复杂度，并且保留每个通道的隐藏连接。最后，设计了FocalWise-IoU作为损失函数，加强检测模型对中质量锚框的预测，减少模型对高质量锚框的过度优化，同时保留低质量锚框产生的信息。实验结果表明：改进模型在数据集上的浮点运算量和模型参数量分别下降了2.1 G和1.1 M，同时平均精度均值提高了0.5个百分点，权值文件大小降低了27%。
- 番茄叶片病害 /
- 分组混洗卷积 /
- 非单调动态聚焦机制 /
- 多目标识别 /
- 深度可分离卷积
Abstract:
Addressing challenges such as limited detection targets and high computational complexity in existing tomato leaf disease recognition models, this paper proposed an improved target recognition model integrating composite convolutions. For the backbone network, the Dil-FasterNet block was introduced by modifying the FasterNet Block. This lightweight, multi-scale feature extraction module combines Dilated Convolution and Depth-Separable Convolution to enhance local details while reducing computational overhead, improving the capture of image details. Additionally, Group-Shuffle Convolution replaced the original convolutional layers. For the neck component, the Slim-Neck module was adopted as the neck network. GS bottleneck and the Cross Stage Partial Net (CSP Net) module were utilized to control the temporal complexity of the model while preserving hidden connections ofeach channel. FocalWise-IoU was designed as the loss function to strengthen the prediction of medium-quality anchor boxes by the detection model, reduce the over-optimization of high-quality anchor boxes, and retain the information from low-quality anchors. Experimental results demonstrated that the improved model achieved a 2.1 G reduction in FLOPs and a 1.1 M decrease in parameters on the dataset, while simultaneously increasing the mAP by 0.5% and reducing the weight file size by 27%.
- tomato leaf diseases /
- GSConv /
- non-monotonic dynamic focusing mechanism /
- multi-target recognition /
- depth-separable convolution .

图 1 图片采集场景示例

下载: 全尺寸图片幻灯片

图 2 YOLOv8结构示意图

下载: 全尺寸图片幻灯片

图 3 改进后模型结构图

下载: 全尺寸图片幻灯片

图 4 Dil-FasterNet模块图

下载: 全尺寸图片幻灯片

图 5 GSConv模块原理图

下载: 全尺寸图片幻灯片

图 6 L_WIoU-v3定义图

下载: 全尺寸图片幻灯片

图 7 模型结果对比热力图

下载: 全尺寸图片幻灯片

图 8 水稻泛化结果对比热力图

下载: 全尺寸图片幻灯片

图 9 棉花泛化结果对比热力图

下载: 全尺寸图片幻灯片

表 1 采集信息

名称	数据	名称	数据
采集地点	陕西临潼番茄产业园	拍摄距离	相机与叶片距离保持15~50 cm
采集设备	Nikon z30、Nikon z50	拍摄角度	正视(0°)、侧视(45°)、仰视(90°)
图像分辨率	2 784×1 856、4 176×2 344	图片数量	3 451张

下载: 导出CSV

表 2 数据集分类体系

生长阶段	图像数量/张
生长阶段	训练集	验证集	测试集
幼苗期	1 008	320	519
开花期	1 031	252	321
合计	2 039	572	840

下载: 导出CSV

表 3 YOLOv8模型参数对比

模型	Params/M	FLOPs/G	模型	Params/M	FLOPs/G
YOLOv8n	3.2	8.2	YOLOv8l	43.7	165.2
YOLOv8s	11.2	28.6	YOLOv8x	68.2	257.8

下载: 导出CSV

表 4 软件环境参数表

参数	设置	参数	设置
迭代轮次/轮	200	初始学习率	0.01
每批训练图片数/张	16	动量因子	0.937
图像分辨率	640×640	权重衰减	0.000 5

下载: 导出CSV

表 5 对比实验结果

模型	mAP50/%	mAP50∶95/%	R/%	Precision/%	FLOPs/G	Params/M
SSD	79.2	37.7	85.1	53.7	62.7	26.3
Faster R-CNN	79.4	39.1	74.8	78.3	370.2	37.1
YOLOv5s	79.7	64.0	74.3	80.3	23.8	9.1
YOLOv7-tiny	77.5	56.6	76.2	80.1	13.2	6.0
YOLOv8n	79.8	63.7	72.2	79.4	8.2	3.2
YOLOv10-N	74.8	58.9	66.7	74.8	8.4	2.7
Dil-YOLO	80.3	63.9	75	79.8	6.1	2.1
注：mAP50表示在单一IoU阈值为0.5时的平均精度均值；mAP50∶95在10个等间隔IoU阈值下计算mAP，再对这10个值取平均。

下载: 导出CSV

表 6 消融实验

序号	Dil-FasterNet	Slim-Neck	FocalWise-IoU	mAP50/ %	mAP50∶95/ %	R/ %	Precision/ %	FLOPs/ G	Params/ M
1	-	-	-	79.8	63.7	72.2	79.4	8.2	3.2
2	√	-	-	78.3	62.4	70.8	77.6	7.2	2.6
3	-	√	-	80.1	64.0	74.6	77.2	7.4	2.8
4	-	-	√	78.9	62.9	69.8	81.3	8.2	3.0
5	√	√	-	79.5	62.6	72.5	79.2	6.9	3.2
6	-	√	√	80.0	62.3	74.9	78.8	7.0	2.6
7	√	-	√	79.2	63.1	74.7	77.2	7.3	2.7
8	√	√	√	80.3	63.9	75.0	79.8	6.1	2.1

下载: 导出CSV

表 7 泛化实验

数据集	模型	mAP50/ %	mAP50∶95/ %	R/ %	Precision/ %	FLOPs/ G	Params/ M
棉花病害	YOLOv8n	82.3	48.9	73.8	86.0	8.2	3.0
	Dil-YOLO	83.1	51.3	74.6	87.1	6.1	2.1
水稻病害	YOLOv8n	87.3	54.7	81.5	82.1	8.2	3.0
	Dil-YOLO	87.7	57.1	87.1	87.8	6.1	2.1

下载: 导出CSV

[1]	汝刚, 刘慧, 沈桂龙. 用人工智能改造中国农业: 理论阐释与制度创新[J]. 经济学家, 2020(4): 110-118.
[2]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[C] //Computer Vision-ECCV 2016. Cham: Springer, 2016: 21-37.
[3]	REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 779-788.
[4]	马一鸣, 尹爽, 郭瑞, 等. 烟叶烘烤阶段不同YOLO算法模型的实时判别性能比较[J/OL]. 河南农业大学学报, (2025-11-04)[2025-12-21]. https://doi.org/10.16445/j.cnki.1000-2340.20251104.001.
[5]	LI H L, LI J, WEI H B, et al. Slim-Neck by GSConv: A Lightweight-Design for Real-Time Detector Architectures[J]. Journal of Real-Time Image Processing, 2024, 21(3): 62. doi: 10.1007/s11554-024-01436-6
[6]	TONG Z J, CHEN Y H, XU Z W, et al. Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism[EB/OL]. (2023-01-24)[2025-10-11]. https://arxiv.org/abs/2301.10051.
[7]	ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and Efficient IoU Loss for Accurate Bounding Box Regression[J]. Neurocomputing, 2022, 506: 146-157. doi: 10.1016/j.neucom.2022.07.042
[8]	刘洋, 宫志宏, 黎贞发, 等. 基于改进YOLOv5的番茄成熟度检测方法[J]. 中国农业气象, 2024, 45(12): 1521-1532.
[9]	HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[10]	TAN M X, LE Q V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[EB/OL]. (2019-05-28)[2025-10-11]. https://arxiv.org/abs/1905.11946.
[11]	LIU S, QI L, QIN H F, et al. Path Aggregation Network for Instance Segmentation[C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.
[12]	刘伯红, 郝文瑞. 面向交通目标的多尺度轻量化检测模型[J]. 重庆邮电大学学报(自然科学版), 2025, 37(2): 185-195.
[13]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. doi: 10.1109/TPAMI.2016.2577031
[14]	LI J F, WEN Y, HE L H. SCConv: Spatial and Channel Reconstruction Convolution for Feature Redundancy[C] //2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2023: 6153-6162.
[15]	YU F, KOLTUN V. Multi-Scale Context Aggregation by Dilated Convolutions[EB/OL]. (2015-12-23)[2025-10-11]. https://arxiv.org/abs/1511.07122.
[16]	袁泉, 杨清泉, 袁亚隆, 等. 改进YOLOv8的水下目标检测算法[J]. 重庆邮电大学学报(自然科学版), 2025, 37(5): 729-740.
[17]	REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 658-666.
[18]	ZHENG Z H, WANG P, LIU W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000.
[19]	杨鹏. 离群检测及其优化算法研究[D]. 重庆: 重庆大学, 2010.
[20]	胡佳乐, 周敏, 申飞. 面向无人机小目标的RTDETR改进检测算法[J]. 计算机工程与应用, 2024, 60(20): 198-206.
[21]	SAKIB S N, HAQUE N, HOSSAIN MZ, et al. PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science[EB/OL]. (2025-08-23)[2025-10-11]. https://arxiv.org/abs/2508.17117.
[22]	SELVARAJU RR, COGSWELL M, DAS A, et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization[J]. International Journal of Computer Vision, 2020, 128(2): 336-359. doi: 10.1007/s11263-019-01228-7

图( 9) 表( 7)

计量

文章访问数: 53
HTML全文浏览数: 53
PDF下载数: 8
施引文献: 0

全文HTML

开放科学（资源服务）标识码（OSID）：
近年来，以卷积神经网络为核心的深度学习技术在计算机视觉领域取得了突破性进展，在病害特征提取、分类识别与目标定位任务中具备远超传统人工识别方法的精度与鲁棒性，为作物病害智能检测提供了全新的技术方案^[1]。随着智能农业的快速发展，利用深度学习技术对番茄叶片病害进行实时检测可显著提升番茄生产效率。

当前，国内外主流的基于深度学习的目标识别模型有单阶段目标检测算法和双阶段目标检测算法。单阶段目标检测算法包括SSD^[2]、YOLO^[3]等，其中YOLO模型因检测速度快、准确度高而备受关注^[4]。然而，在农田的叶片病害检测场景中，叶片病害目标普遍存在小目标占比较高、背景复杂以及现有识别模型难以兼顾检测精度与模型轻量化的问题。

针对上述问题，本研究围绕番茄叶片病害识别任务设计了Dil-YOLO(YOLOv8n-DilatedConv-Slim-Neck)番茄叶片病害识别模型，从3个方面进行改进：①在YOLOv8主干网络设计了Dil-FasterNet模块，替换原C2f模块，该模块将标准卷积拆分为单通道空间特征提取的深度卷积(Depth Wise Convolution，DWConv)与跨通道特征融合的逐点卷积(Point Wise Convolution，PWConv)，在不破坏特征传递逻辑的前提下大幅降低单卷积层的参数量与浮点运算量；②引入高效特征颈部网络Slim-Neck模块^[5]，该模块通过分组卷积(Grouped Convolution，GConv)与通道混洗操作的协同作用，在降低卷积运算参数量与计算复杂度的同时，保留了通道间的特征交互能力；③设计了FocalWise-IoU损失函数，结合Wise-IoU函数的动态聚焦机制^[6]和Focal-EIoU v1函数的动态权重分配机制^[7]，加强对低质量锚框的识别能力。通过上述改进整体提升番茄叶片病害识别的准确性与鲁棒性。

3. 结论

随着智慧农业的高速发展，农田环境下对于高精度、低延时、低算力的目标识别模型提出了更高的需求。当前主流识别模型在目标密集、尺度差异大的农田环境中常出现识别偏差，难以兼顾模型大小等问题。基于此，本研究提出了一种基于YOLOv8的番茄叶片病害识别模型。在YOLOv8的骨干网络中设计了Dil-FasterNet模块，通过空洞卷积可在不增加参数量的同时捕捉多尺度特征，通过深度可分离卷积能将标准卷积拆解为深度卷积与逐点卷积以大幅削减参数量和计算量。之后在颈部网络引入Slim-Neck模块，通过GSConv来替代标准卷积，搭配VoV-GSCSP瓶颈结构优化特征融合，在大幅降低参数量与计算开销的同时，强化多尺度特征的高效交互与表达。最后设计了FocalWise-IoU损失函数，使模型聚焦低IoU样本，解决锚框质量导致的梯度不平衡的问题，通过对特征维度的精细化约束，提升模型对复杂目标的判别能力。与基线模型相比，Dil-YOLO模型大幅减少了模型的计算量和参数量，Params降低了1.1 M，浮点运算量降低了2.1 G，且模型mAP相比于基线模型提高了0.5个百分点。

在后续研究中，将进一步增加数据集中病害种类和图像数量，强化数据的多样性，并与更多先进模型进行对比分析。同时补充不同地域、不同种植模式(设施大棚、露天种植)、不同作物生育期、极端光照/阴雨/叶片严重遮挡等田间复杂环境下的病害样本，构建更完备的番茄病害专用数据集。

参考文献 (22)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

番茄叶片病害多目标识别模型的轻量化研究

1.
武汉轻工大学电气与电子信息学院，湖北武汉 430048

2.
武汉轻工大学数学与计算机学院，湖北武汉 430048

3.
武汉大学计算机学院，湖北武汉 430072

作者简介:
胡俊杰，硕士研究生，研究从事计算机视觉、目标检测的研究 .

通信作者: 张聪，博士，二级教授，硕士研究生导师;

Lightweight Study of a Multi-Target Recognition Model for Tomato Leaf Diseases

1.
School of Electrical and Electronic Engineering, Wuhan Polytechnic University, Wuhan Hubei 430048, China

2.
School of Mathematics and Computer Science, Wuhan PolytechnicUniversity, Wuhan Hubei 430048, China

3.
School of Computer Science, Wuhan University, Wuhan Hubei 430072, China

计量

番茄叶片病害多目标识别模型的轻量化研究

通信作者: 张聪，博士，二级教授，硕士研究生导师;

作者简介: 胡俊杰，硕士研究生，研究从事计算机视觉、目标检测的研究
1. 武汉轻工大学电气与电子信息学院，湖北武汉 430048

2. 武汉轻工大学数学与计算机学院，湖北武汉 430048

3. 武汉大学计算机学院，湖北武汉 430072

English Abstract

Lightweight Study of a Multi-Target Recognition Model for Tomato Leaf Diseases

Corresponding author: ZHANG Cong ;

全文HTML

1.1. 数据集材料

1.2. YOLOv8网络结构

1.3. 改进的YOLOv8n网络

1.3.1. Dil-FasterNet模块

1.3.2. 特征融合模块

1.3.3. 损失函数的改进

1.4. 评价指标

1.5. 实验环境及参数设置

2.1. 对比实验

2.2. 消融实验

2.3. 泛化实验

2.4. 可视化

2.4.1. 可视化热力图

2.4.2. 热力图泛化结果

目录

留言板

番茄叶片病害多目标识别模型的轻量化研究

1. 武汉轻工大学 电气与电子信息学院，湖北 武汉 430048 2. 武汉轻工大学 数学与计算机学院，湖北 武汉 430048 3. 武汉大学 计算机学院，湖北 武汉 430072

作者简介: 胡俊杰，硕士研究生，研究从事计算机视觉、目标检测的研究 .

通信作者: 张聪，博士，二级教授，硕士研究生导师;

Lightweight Study of a Multi-Target Recognition Model for Tomato Leaf Diseases

1. School of Electrical and Electronic Engineering, Wuhan Polytechnic University, Wuhan Hubei 430048, China 2. School of Mathematics and Computer Science, Wuhan PolytechnicUniversity, Wuhan Hubei 430048, China 3. School of Computer Science, Wuhan University, Wuhan Hubei 430072, China

计量

出版历程

番茄叶片病害多目标识别模型的轻量化研究

通信作者: 张聪，博士，二级教授，硕士研究生导师;

作者简介: 胡俊杰，硕士研究生，研究从事计算机视觉、目标检测的研究 1. 武汉轻工大学 电气与电子信息学院，湖北 武汉 430048 2. 武汉轻工大学 数学与计算机学院，湖北 武汉 430048 3. 武汉大学 计算机学院，湖北 武汉 430072

English Abstract

Lightweight Study of a Multi-Target Recognition Model for Tomato Leaf Diseases

Corresponding author: ZHANG Cong ;

全文HTML

1.1. 数据集材料

1.2. YOLOv8网络结构

1.3. 改进的YOLOv8n网络

1.3.1. Dil-FasterNet模块

1.3.2. 特征融合模块

1.3.3. 损失函数的改进

1.4. 评价指标

1.5. 实验环境及参数设置

2.1. 对比实验

2.2. 消融实验

2.3. 泛化实验

2.4. 可视化

2.4.1. 可视化热力图

2.4.2. 热力图泛化结果

目录

1.
武汉轻工大学电气与电子信息学院，湖北武汉 430048

2.
武汉轻工大学数学与计算机学院，湖北武汉 430048

3.
武汉大学计算机学院，湖北武汉 430072

作者简介:
胡俊杰，硕士研究生，研究从事计算机视觉、目标检测的研究 .

1.
School of Electrical and Electronic Engineering, Wuhan Polytechnic University, Wuhan Hubei 430048, China

2.
School of Mathematics and Computer Science, Wuhan PolytechnicUniversity, Wuhan Hubei 430048, China

3.
School of Computer Science, Wuhan University, Wuhan Hubei 430072, China

作者简介: 胡俊杰，硕士研究生，研究从事计算机视觉、目标检测的研究
1. 武汉轻工大学电气与电子信息学院，湖北武汉 430048

2. 武汉轻工大学数学与计算机学院，湖北武汉 430048

3. 武汉大学计算机学院，湖北武汉 430072