深度学习下的民居建筑自动分类量化测度研究

张春明; 谭人殊; 宋晨明; 赵党书

doi:10.13718/j.cnki.xsxb.2023.06.001

深度学习下的民居建筑自动分类量化测度研究

1.
云南艺术学院，昆明 650101

2.
西安交通大学，西安 710049

3.
昆明理工大学，昆明 650031

基金项目: 云南艺术学院科研基金项目(2021KYJJ05); 教育部人文社会科学研究青年基金项目(21YJC760070)

详细信息

作者简介:
张春明，副教授 .

通讯作者: 赵党书，副教授

中图分类号: TP391.41

Research on Quantitative Measurement of Automatic Classification of Residential Buildings Under Deep Learning

1.
Yunnan Arts University, Kunming 650101, China

2.
Xi'an Jiaotong University, Xian 710049, China

3.
Kunming University of Science and Technology, Kunming 650031, China

摘要: 针对传统人工采集和判定的方法受到诸多因素的影响，导致效率低下且评定结果的波动性的问题. 探索了一种基于深度学习方法进行民居建筑的多项特征指标的量化评定. 采用CNN神经网络结构对民居建筑进行特征的自动分类. 结果表明，EfficientNet是性能最优秀的CNN架构. 采用这样的研究途径有助于更为全面地了解民居建筑的演化趋势和相关保护政策的制定.
- 民居建筑 /
- 量化评测 /
- 卷积神经网络 /
- 风貌特征
Abstract: The traditional manual collection and judgment methods are affected by many factors, resulting in slow efficiency and fluctuation of evaluation results. This study explored a quantitative evaluation of multiple characteristic indexes of residential buildings based on deep learning method. CNN neural network structure was used to automatically classify the characteristics of residential buildings. The results showed that EfficientNet was the best CNN architecture. Adopting such a research approach will help to have a more comprehensive understanding of the evolution trend of residential buildings and the formulation of relevant protection policies.
- residential buildings /
- quantitative evaluation /
- convolution neural network /
- style characteristics .

图 1 民居建筑数据集

下载: 全尺寸图片幻灯片

图 2 CNN示意

下载: 全尺寸图片幻灯片

图 3 数据增强

下载: 全尺寸图片幻灯片

图 4 楼层实验

下载: 全尺寸图片幻灯片

图 5 建筑风格

下载: 全尺寸图片幻灯片

图 6 建筑质量

下载: 全尺寸图片幻灯片

图 7 建筑材料

下载: 全尺寸图片幻灯片

表 1 EfficientNet网络结构

阶段	算子	分辨率/像素	#通道/个	#层数
1	Conv3×3	224×224	32	1
2	MBConv1，k3×3	112×112	16	1
3	MBConv6，k3×3	112×112	24	2
4	MBConv6，k5×5	56×56	40	2
5	MBConv6，k3×3	28×28	80	3
6	MBConv6，k5×5	14×14	112	3
7	MBConv6，k5×5	14×14	192	4
8	MBConv6，k3×3	7×7	320	1
9	Convl×1&Pooling &FC	7×7	1 280	1

下载: 导出CSV

表 2 MobileNet网络结构

	种类/步数	过滤皿形状/像素	输入尺寸/像素
5×	Conv/s2	3×3×3×32	224×224×3
	Convdw/sl	3×3×32dw	112×112×32
	Conv/sl	1×1×32×64	112×112×32
	Convdw/s2	3×3×64dw	112×112×64
	Conv/sl	1×1×64×128	56×56×64
	Convdw/sl	3×3×128dw	56×56×128
	Conv/sl	1×1×128×128	56×56×128
	Convdw/s2	3×3×128dw	56×56×128
	Conv/sl	1×1×128×256	28×28×128
	Convdw/sl	3×3×256dw	28×28×256
	Conv/s1	1×1×256×256	28×28×256
	Convdw/s2	3×3×256dw	28×28×256
	Conv/sl	1×1×256×512	14×14×256
	Conv dw /s1	3×3×512dw	14×14×512
	Convdw/sl	1×1×512×512	14×14×512
	Conv dw/s2	3×3×512dw	14×14×512
	Conv/sl	1×1×512×1024	7×7×512
	Convdw/s2	3×3×1024dw	7×7×1024
	Conv/sl	1×1×1024×1024	7×7×1024
	AvgPool/sl	Pool7×7	7×7×1024
	FC/sl	1024×1000	1×1×1024
	Softmax/sl	Classifier	1×1×1000

下载: 导出CSV

表 3 ResNet50网络结构

层名	输出尺寸/像素	18层	34层	50层	101层	152层
conv1	112×112	第49层7×7.64.stride 2
conv2x	56×56	3x3max pool.stride 2
		3×3，64 3×3，64×2	3×3，64 3×3，64×3	1×1，64 3×3，64 1×1，256×3	1×1，64 3×3，64 1×1，256×3	1×1，64 3×3，64 1×1，256×3
conv3x	28×28	3×3，128 3×3，128×2	3×3，128 3×3，128×4	1×1，12 3×3，128 1×1，512×4	1×1，12 3×3，128 1×1，512×4	1×1，12 3×3，128 1×1，512×8
Conv4x	14×14	3×3，256 3×3，256×2	3×3，256 3×3，256×6	1×1，256 3×3，256 1×1，1024×6	1×1，256 3×3，256 1×1，1024×23	1×1，256 3×3，256 1×1，1024×36
conv5x	7×7	3×3，512 3×3，512×2	3×3，512 3×3，512×3	1×1，512 3×3，512 1×1.205×3	1×1，512 3×3，512 1×1.205×3	1×1，512 3×3，512 1×1.2048×3
	1×1	avcrage pool1000-df softmax第50层
FLOPs		1.8×10⁹	3.6×10⁹	3.8×10⁹	7.6×10⁹	11.3×10⁹

下载: 导出CSV

表 4 样本真实情况和预测结果对照表

真实情况	预测结果
真实情况	正例	反例
正例	真正例(TP)	假反例(FN)
反例	假反例(FP)	真反例(TN)

下载: 导出CSV

表 5 召回指标R

模型	数据类型
模型	建筑楼层	建筑风格	建筑质量	建筑材料
MobileNetV3	0.344	0.394	0.473	0.488
ResNet50	0.439	0.500	0.655	0.473
EfficientNetB3a	0.469	0.484	0.547	0.733
平均值	0.420	0.460	0.560	0.560

下载: 导出CSV

表 6 准确率指标P

模型	数据类型
模型	建筑楼层	建筑风格	建筑质量	建筑材料
MobileNetV3	0.767	0.765	0.790	0.870
ResNet50	0.829	0.872	0.851	0.865
EfficientNetB3a	0.838	0.887	0.837	0.881
平均值	0.81	0.84	0.83	0.87

下载: 导出CSV

表 7 F₁分数指标

模型	数据类型
模型	建筑楼层	建筑风格	建筑质量	建筑材料
MobileNetV3	0.421	0.434	0.557	0.515
ResNet50	0.454	0.474	0.556	0.487
EfficientNetB3a	0.499	0.557	0.506	0.755
平均值	0.46	0.49	0.54	0.59

下载: 导出CSV

表 8 速度指标

模型	数据类型				平均速度
模型	建筑楼层	建筑风格	建筑质量	建筑材料	平均速度
MobileNetV3	173	177	172	176	174.50
ResNet50	121	115	114	123	118.25
EfficientNetB3a	78	84	83	76	80.25

下载: 导出CSV

[1]	许声宏. 在线教学中的人工智能应用初探[J]. 西南师范大学学报(自然科学版), 2022, 47(9): 111-115. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xsxb.2022.09.016
[2]	代建华, 彭若瑶, 许路, 等. 基于深度神经网络的信息抽取研究综述[J]. 西南师范大学学报(自然科学版), 2022, 47(4): 1-11. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xsxb.2022.04.001
[3]	张丽英, 裴韬, 陈宜金, 等. 基于街景图像的城市环境评价研究综述[J]. 地球信息科学学报, 2019, 21(1): 46-58. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201901007.htm
[4]	RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet Large Scale Visual Recognition Challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252. doi: 10.1007/s11263-015-0816-y
[5]	董华珍. 基于CNN的普米语孤立词语谱图分类[J]. 西南大学学报(自然科学版), 2021, 43(2): 160-168. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XNND202102021.htm
[6]	吴绪玲. 基于混合优化的双模深度学习文本分类方法[J]. 西南大学学报(自然科学版), 2022, 44(11): 234-242. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XNND202211022.htm
[7]	刘伦, 王辉. 城市研究中的计算机视觉应用进展与展望[J]. 城市规划, 2019, 43(1): 117-124. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-CSGH201901022.htm
[8]	HERAS L P, AHMED S, LIWICKI M, et al. Statistical Segmentation and Structural Recognition for Floor Plan Interpretation [J]. International Journal on Document Analysis and Recognition, 2014, 17(3): 221-237.
[9]	LIU C, WU J J, KOHLI P, et al. Raster-to-Vector: Revisiting Floorplan Transformation [C]//2017 IEEE International Conference on Computer Vision (ICCV). October 22-29, 2017, Venice, Italy. IEEE, 2017: 2214-2222.
[10]	YAMASAKI T, ZHANG J, TAKADA Y. Apartment Structure Estimation Using Fully Convolutional Networks and Graph Model [C]//Proceedings of the 2018 ACM Workshop on Multimedia for Real Estate Tech. 11 June 2018, Yokohama, Japan. New York: ACM, 2018: 1-6.
[11]	ZENG Z, LI X, YU Y K, et al. Deep flfloor plan recognition using a multi-task network with room-boundary-guided attention, in: Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 9096-9104.
[12]	HERAS L P, TERRADES O R, ROBLES S, et al. CVC-FP and SGT: a New Database for Structural Floor Plan Analysis and Its Groundtruthing Tool [J]. International Journal on Document Analysis and Recognition, 2015, 18(1): 15-30.
[13]	KALERVO A, YLIOINAS J, HÄIKIÖ M, et al. CubiCasa5K: A Dataset and an Improved Multi-Task Model for Floorplan Image Analysis [M]//Image Analysis. Cham: Springer International Publishing, 2019: 28-40.
[14]	WU W M, FU X M, TANG R, et al. Data-Driven Interior Plan Generation for Residential Buildings [J]. ACM Transactions on Graphics, 2019, 38(6): 1-12.
[15]	PORIKLI F, SHAN S G, SNOEK C, et al. Deep Learning for Visual Understanding: Part 2 [from the Guest Editors [J]. IEEE Signal Processing Magazine, 2018, 35(1): 17-19.
[16]	KONG L Q, LIU Z F, WU J G. A Systematic Review of Big Data-Based Urban Sustainability Research: State-of-the-Science and Future Directions [J]. Journal of Cleaner Production, 2020, 273: 123142.
[17]	MA L, LIU Y, ZHANG X L, et al. Deep Learning in Remote Sensing Applications: a Meta-Analysis and Review [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 152: 166-177.
[18]	GONG F Y, ZENG Z C, ZHANG F, et al. Mapping Sky, Tree, and Building View Factors of Street Canyons in a High-Density Urban Environment [J]. Building and Environment, 2018, 134: 155-167.
[19]	GONZALEZ D, RUEDA-PLATA D, ACEVEDO A B, et al. Automatic Detection of Building Typology Using Deep Learning Methods on Street Level Images [J]. Building and Environment, 2020, 177: 106805.
[20]	DAI M L, WARD W O C, MEYERS G, et al. Residential Building Facade Segmentation in the Urban Environment [J]. Building and Environment, 2021, 199: 107921.
[21]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 15-25.

图( 7) 表( 8)

计量

文章访问数: 1945
HTML全文浏览数: 1945
PDF下载数: 329
施引文献: 0

全文HTML

2. 预备工作

随着大数据技术的推广深化以及人工智能工业应用的蓬勃发展，越来越多的研究者尝试结合人工智能手段和传统学科之间的大数据展开系统、深入的挖掘^[6-7]. 本次研究主要通过深度学习的方法对传统民居建筑风貌进行特征提取判读. 建筑单体图片是反映建筑风貌的最直观的数据，通过图片元素对建筑的风格、材质和结构形式等多个物理特征进行分辨，在过去的几十年里，对图片的机器理解仍然是模式识别和图像分类领域的一个活跃的研究课题. 具体来说，给定一个建筑单体图像，不仅检测到单个建筑立面元素以及它们的物理属性，还检测到与此更为高级相关的有意义的语义单元，可以识别出相关信息(如风格、建筑质量). 早期的工作集中于基于低级图像处理的平面图分析，如通过霍夫变换^[4]的线检测，通过字袋模型^[8]的图形符号识别. 对于建筑几何特征和外观形式及组合模式的主要依赖于图片所反映的建筑物理属性进行判断识别. 近年来，一些基于CNN的数据驱动技术^[9-11]已经取得了很好的效果. 然而，他们使用的公共数据集^{[9, 12-14]}是从城市住宅中收集的，居住建筑外观的复杂性是有限的，而图形元素则是常规形式. 相比之下，农村住宅受地形、气候和居住习惯等多方面因素的影响，其建筑结构更加复杂，风格更加多元. 因此，不同农村地区的建筑有着不同的几何结构形式和建筑外观风格. 这些因素使得人工智能对于建筑的分类效果不能获得令人满意的预测结果.

本研究的主要步骤流程是对村落民居的图片采集、图片预处理、民居风貌特征分类与映射. 此次图片数据的采集主要是通过对元阳多依树村进行人工拍照的方式获取各个自然村民居建筑图片，在此基础之上，对图片进行初期的筛选及图片预处理，同时结合规划文件的需要，对民居建筑的特征提出了4个方面的特征指标描述. 根据4个特征特点在多个不同卷积神经网络模型上进行随机分割图片数据的预测指标得分对比，进而选出最优模型结构. 在此基础上，采用测试集数据进行数据验证，判别模型的可行性.

4. 结果及讨论

4.1. 结果

从结果上来看，使用深度学习模型在4种建筑要素分类上的指标均可以达到80以上，其中EfficientNet模型在识别指标上表现最好，综合指标表现最好；而MobileNet在速度上表现最好，但是精度相对较低. 从总体上看，模型在建筑风格、建筑质量和建筑材料的表现都较好，在建筑楼层的识别上表现较差，分析原因是楼层的特征对于其他3个建筑要素来说相对表面，深度神经网络提取的深度特征反而不利于楼层的识别，后续的研究可采用语义分割的方法来提高建筑楼层识别的准确率. 另外，从总体指标上来看，本研究的指标并没有达到90以上，其原因是本研究的数据多采集自真实场景，在建筑周围有很多嘈杂的背景导致模型学习的相对困难，后续可以通过语义分割的方式提取干净的建筑前景区域来进一步提高识别的准确率和精度.

4.2. 自动量化识别对民居建筑保护的价值

本次研究的数据来自2021年的元阳多依树村调研，就数据来源的时效性而言，能够很好地体现村落目前的保护情况. 由于地理环境和民族地区发展的原因限制，云南本地传统村落的调研和保护受到很大的影响，现有的数据采集方法多依赖于人工现场调研，使得调研的成本变得昂贵，时间周期拉长，本次研究提出的研究方法，对采集到的数据集的分类和映射具有较高的自动化性，从目前的测试结果来看，能够对建筑的多项特征指标产生一个较好的评测结果，有助于减少未来村落民居建筑研究中因人工认知差异而造成的结果的不稳定性. 云南省有25个少数民族，每个民族由于其自身的文化和地理位置造就了不同的建筑风格，但每种建筑风格都不同程度地因为发展的原因有了变化和异化，随着数据量的增加和具体参数的调整，本次研究的这种方法是可转移的，而且准确性会逐渐提高，可以为传统村落的保护政策研究提供数据上的量化参考.

4.3. 局限性及未来的工作

本次的研究所采集的数据目前还是主要依靠人工进行现场拍照的形式进行，虽然与目前的图片数据采集技术(如3维激光采集、倾斜摄影数据采集)相比，人工采集的图片具有容量小、清晰度高和建筑细节准确性等特点，但在数据的采集过程中还存在一定的主观性和天气气候及光线的随机性，给数据的客观性带来了一定的波动性. 此外，由于云南省的民族众多，村落所在地理环境复杂，导致民居形式丰富，对每个民族或每个区域的村落风貌的界定需要进一步地提高数据集数量，并且对模型的参数做进一步的调试，找到一定的规律性(如本次研究中，对增强数据的参数进行了多轮调试，在测试结果的ACC和F₁值上都取得了很好的提高)，在此过程中，通过对参数的调试，可以看出CNN模式对图像的知觉认知的指标分类具有很好的潜力，这是研究下一步需要进一步加强和完善的地方.

5. 结论

本研究提出了一个民居建筑风貌分类的研究框架，它能够对图片进行更丰富的分类. 该方法对单体民居建筑物的特征分类具有较高的识别精度. 为了完成这个任务，本研究构建了一个包含4个民居建筑特征类别的人工采集的基准数据集，用于训练和测试. 通过研究3种不同的CNN架构，选择综合指标表现最优的EfficientNetB3a进行村落尺度上的民居建筑特征分类. 这样的研究结果有助于了解村落民居发展和异化的规律.

为了提高模型的泛化力和对图片分类性能的准确性，未来的工作可以融合其他信息，如社交媒体图像和图像中显示的文本信息，又如图片标题和图片附带的情感语言信息. 此外，为了获得更密集的民居村落图片，可以结合遥感影像图像和附带地理信息的倾斜摄影图像数据(建筑数据单体化)进行多源的数据综合测评研究. 在此基础上，由于有了量化的数据测评，如果在后续的研究中加入时间维度的考量，就能够对村落民居风貌的变化有更为准确的量化描述，对于村落保护的监测具有更为重要的意义.

参考文献 (21)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

深度学习下的民居建筑自动分类量化测度研究

1.
云南艺术学院，昆明 650101

2.
西安交通大学，西安 710049

3.
昆明理工大学，昆明 650031

作者简介:
张春明，副教授 .

通讯作者: 赵党书，副教授

Research on Quantitative Measurement of Automatic Classification of Residential Buildings Under Deep Learning

1.
Yunnan Arts University, Kunming 650101, China

2.
Xi'an Jiaotong University, Xian 710049, China

3.
Kunming University of Science and Technology, Kunming 650031, China

计量

深度学习下的民居建筑自动分类量化测度研究

通讯作者: 赵党书，副教授

作者简介: 张春明，副教授
1. 云南艺术学院，昆明 650101

2. 西安交通大学，西安 710049

3. 昆明理工大学，昆明 650031

English Abstract