基于百度指数时空分布的旅游趋势预测研究——以上海市为例

康俊锋; 郭星宇; 方雷

doi:10.13718/j.cnki.xsxb.2020.10.012

基于百度指数时空分布的旅游趋势预测研究——以上海市为例

1.
江西理工大学建筑与测绘工程学院，江西赣州 341000

2.
复旦大学环境科学与工程系，上海 200433

基金项目: 国家重点研发计划项目(2016YFC0803105)；国家留学基金资助项目(201808360065)；江西省教育厅科学技术研究项目(GJJ150661)；国家自然科学基金青年基金资助项目(41701462)

详细信息

作者简介:
康俊锋(1978-)，男，副教授，博士，主要从事高性能GIS算法及应用研究 .

通讯作者: 方雷，博士

中图分类号: F59

Tourism Trend Prediction Based on Baidu Index Spatial and Temporal Distribution

1.
School of Architecture and Surveying Engineering, Jiangxi University of Science and Technology, Ganzhou Jiangxi 341000, China

2.
Department of Environmental Science and Engineering, Fudan University, Shanghai 200433, China

摘要: 科学、准确、便捷、低成本地预测旅游趋势对提高景区的科学管理能力及避免因旅游人数过多导致的公共安全问题具有重要意义.研究选取2011-2018年中国各省级行政区(港澳台除外)与上海市旅游相关的百度指数数据和上海市国内游客数据构建旅游趋势预测模型.通过Granger因果检验、ARIMA模型挖掘公众网络搜索行为与现实旅游行为的映射关系；依据百度指数数据的时空分布规律，采用支持向量机方法对百度指数数据进行聚类，解决不同省份百度指数因变化趋势近似而造成的多重共线问题，优化后的预测模型平均预测精度提升23.36%.研究发现：①昨天的搜索者就是今天的旅游者；②基于地理位置的旅游空间距离与旅游出游率呈反比、百度指数的地理位置属性有助于提升预测精度.
- 百度指数 /
- 旅游预测 /
- 时空分布 /
- ARIMA模型 /
- 支持向量聚类 /
- 地理信息系统
Abstract: In this paper, the Baidu index and the number of Chinese domestic tourists (1.38 billion in total) of each consecutive monthly travel destination of Shanghai from 2011 to 2018 have been studied. Through the Granger causality test, ARIMA model, spatial clustering method and principal component analysis, the mapping relationship between Internet virtual space and the real world has been explored. With the help of Spatio-temporal distribution pattern analysis and seasonal trend analysis, the multicollinearity problem of a similar time trend of different sources has been solved, thus the average prediction accuracy of the optimized prediction model been increased by 23.35%. Moreover, it is concluded that "yesterday's searchers are today's tourists", "travel distance is inversely proportional to travel rate" and "the geographical location attribute of the search index is helpful to improve the prediction accuracy". Tourism forecast can provide scientific and accurate decision-making basis for the scenic spot management department to ensure the safety of the scenic spot and tourism experience.
- Baidu index /
- tourism forecast /
- space-time distribution /
- ARIMA model /
- Support vector clustering /
- geographic information system .

图 1 中国不同省份关于“上海旅游”的月度百度数据(2011-2018年)

下载: 全尺寸图片幻灯片

图 2 搜索关键词筛选

下载: 全尺寸图片幻灯片

图 3 上海市月度国内旅游人数与百度指数趋势变化对比图(2011-2018年)

下载: 全尺寸图片幻灯片

图 4 上海市旅游数据的ACF与PACF

下载: 全尺寸图片幻灯片

图 5 不同参数预测模型的BIC值热力图

下载: 全尺寸图片幻灯片

图 6 最优聚类结果

下载: 全尺寸图片幻灯片

图 7 2018年上海市实际旅游人数与预测人数对比图

下载: 全尺寸图片幻灯片

表 1 变量的格兰杰因果关系检验结果

滞后长度	格兰杰因果性	F值	F的p值	结论
1	SHLY不是SHYK的格兰杰原因	3.984 40	0.049 3	拒绝
1	SHYK不是SHLY的格兰杰原因	1.887 11	0.174	不拒绝

下载: 导出CSV

[1]	李山, 邱荣旭, 陈玲.基于百度指数的旅游景区网络空间关注度:时间分布及其前兆效应[J].地理与地理信息科学, 2008, 24(6): 108-113. doi: http://www.cnki.com.cn/Article/CJFDTotal-DLGT200806027.htm
[2]	卢文刚.景区容量超载背景下的旅游突发事件应急管理研究——以"10·2"九寨沟游客滞留事件为例[J].西南民族大学学报(人文社科版), 2015, 39(11): 145-150.
[3]	韩冰, 路紫, 赵亚红, 等.旅游网站访问者行为的时间分布及导引分析[J].地理学报, 2007, 62(6): 621-630. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dlxb200706007
[4]	林青, 晁怡, 杨乃, 等.一种考虑时间成本的旅游线路推荐方法[J].地理与地理信息科学, 2017, 33(6): 29-33, 60. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dlxygtyj201706005
[5]	YANG X, PAN B, EVANS J A. Forecasting Chinese Tourist Volume with Search Engine Data[J]. Tourism Management, 2015, 46: 386-397. doi: 10.1016/j.tourman.2014.07.019
[6]	孙烨, 张宏磊, 刘培学, 等.基于旅游者网络关注度的旅游景区日游客量预测研究——以不同客户端百度指数为例[J].人文地理, 2017, 32(3): 158-166. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=rwdl201703020
[7]	HASSANI H, WEBSTER A, SILVA E S. Forecasting U. S. Tourist Arrivals Using Optimal Singular Spectrum Analysis[J]. Tourism Management, 2015, 46: 322-335. doi: 10.1016/j.tourman.2014.07.004
[8]	BANGWAYO-SKEETE P F, SKEETE R W. Can Google Data Improve the Forecasting Performance of Tourist Arrivals? Mixed-data Sampling Approach[J]. Tourism Management, 2015, 46: 454-464. doi: 10.1016/j.tourman.2014.07.014
[9]	doi: http://www.sciencedirect.com/science/article/pii/S0264999312002490 FONDEUR Y, KARAMÉ F. Can Google Data Help Predict French Youth Unemployment?[J]. Economic Modelling, 2013, 30(1): 117-125.
[10]	ARGIRIOU A A. Use of Neural Networks for Tropospheric Ozone Time Series Approximation and Forecasting & Ndash; a Review[J]. Atmospheric Chemistry and Physics Discussions, 2007, 7(2): 5739-5767. doi: 10.5194/acpd-7-5739-2007
[11]	ZAFRA C, ÁNGEL Y, TORRES E. ARIMA Analysis of the Effect of Land Surface Coverage on PM10 Concentrations in a High-altitude Megacity[J]. Atmospheric Pollution Research, 2017, 8(4): 660-668. doi: 10.1016/j.apr.2017.01.002
[12]	doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=PubMed000002238269 ALTHOUSE B M, NG Y Y, CUMMINGS D A T. Prediction of Dengue Incidence using Search Query Surveillance[J]. PLos Neglected Tropical Diseases, 2011, 5(8).
[13]	LATINOPOULOS D. Using a Spatial Hedonic Analysis to Evaluate the Effect of Sea View on Hotel Prices[J]. Tourism Management, 2018, 65: 87-99. doi: 10.1016/j.tourman.2017.09.019
[14]	ASKITAS N, ZIMMERMANN K F. Google Econometrics and Unemployment Forecasting[J]. Applied Economics Quarterly, 2009, 55(2): 107-120. doi: 10.3790/aeq.55.2.107
[15]	张悟移, 李杰.百度关注度指数与股票价格关系研究[J].西南师范大学学报(自然科学版), 2019, 44(02): 75-83. doi: http://xbgjxt.swu.edu.cn/article/doi/10.13718/j.cnki.xsxb.2019.02.014
[16]	HUANG K X, ZHANG L F, DING Y S. The Baidu Index: Uses in Predicting Tourism Flows-A Case Study of the Forbidden City[J]. Tourism Management, 2017, 58: 301-306. doi: 10.1016/j.tourman.2016.03.015
[17]	CLAVERIA O, TORRA S. Forecasting Tourism demand to Catalonia: Neural Networks vs. Time Series Models[J]. Economic Modelling, 2014, 36: 220-228. doi: 10.1016/j.econmod.2013.09.024
[18]	马莉, 刘培学, 张建新, 等.景区旅游流与网络关注度的区域时空分异研究[J].地理与地理信息科学, 2018, 34(2): 93-99. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=7000490273
[19]	何小芊, 刘宇, 吴发明.基于百度指数的温泉旅游网络关注度时空特征研究[J].地域研究与开发, 2017, 36(1): 105-110, 126. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=671336058
[20]	doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=ba8fa6b58aee59aa5a18d63ef068696c PAN B. The Power of Search Engine Ranking for Tourist Destinations[J]. Tourism Management, 2015, 47: 79e87-87.
[21]	CHAITIP P, CHAIBOONSRI C. International Tourists Arrival to Thailand: Forecasting by Non-linear Model[J]. Procedia Economics and Finance, 2014, 14: 100-109. doi: 10.1016/S2212-5671(14)00691-1
[22]	CHU F L. Forecasting Tourism Demand with ARMA-based Methods[J]. Tourism Management, 2009, 30(5): 740-751. doi: 10.1016/j.tourman.2008.10.016
[23]	张向宁, 孙秋碧.信息化与工业化融合有界性的实证研究——基于我国31省市面板数据[J].经济问题, 2015(01): 84-88. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=663336063
[24]	FINLEY T, JOACHIMS T. Supervised Clustering with Support Vector Machines[C]//ICML 2005-Proceedings of the 22nd International Conference on Machine Learning. 2005.
[25]	doi: http://www.tandfonline.com/doi/abs/10.1080/0952813X.2013.815281 WANG H, WANG W, MENG Y. Degree of User Attention to a Webpage Based on Baidu Index: An alternative to page view[J]. Journal of Experimental and Theoretical Artificial Intelligence, 2014, 26(2): 235-249.
[26]	ETUK E H. A Seasonal Arima Model for Nigerian Gross Domestic Product[J]. 2012, 2(3): 46-53.
[27]	BRIDA J G, GARRIDO N. Tourism Forecasting Using SARIMA Models in Chilean Regions[J]. International Journal of Leisure and Tourism Marketing, 2011, 2(2): 176. doi: 10.1504/IJLTM.2011.038888
[28]	孙晓蓓, 杨晓霞, 张枫怡.基于百度指数的中国A级旅游洞穴景区网络关注度分布特征研究[J].西南师范大学学报(自然科学版), 2018, 43(4): 81-88. doi: http://xbgjxt.swu.edu.cn/article/id/jscnuhhsex201804015
[29]	殷平.旅游交通成本对旅游目的地空间竞争的影响研究[J].地域研究与开发, 2012, 31(6): 97-101. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dyyjykf201206017
[30]	张捷, 李升峰, 周寅康, 等.九寨沟风景区游客入游距离特征研究[J].长江流域资源与环境, 2002(1): 5-9. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=cjlyzyyhj200201002

图( 7) 表( 1)

计量

文章访问数: 5870
HTML全文浏览数: 5870
PDF下载数: 270
施引文献: 0

全文HTML

随着经济水平的提高，我国旅游业蓬勃发展，旅游市场规模与日俱增.旅游趋势预测不仅有助于景区管理者根据预测的游客数量动态调整景区接待能力，平衡景区服务质量与运营成本间的关系；也能帮助游客规避人流高峰，提高旅游品质^[1-4].面对游客数量突然的爆发，不少景区都发生过接待能力超载的事件.例如，2013年的国庆长假第二天九寨沟游客人数就已超过5万，致使数以千计的游客不得不滞留在景区内直至后半夜^[2]；2014年“国庆”期间故宫游客量最高竟达17万人次，远超故宫规定的每日最大承载量(8万人次)；2017年武汉东湖生态旅游风景区，春节期间累计接待游客30万人次，单日客流量最高同比增长达到650%.过多游客涌入景区导致景区无法提供应有的游览体验，此类事件不仅伤害了游客，更使景区的声誉受损、接待能力被质疑.对于城市而言，游客超过预期的汇聚易引发公共安全事件，上海市在2014年12月31日爆发了震惊世界的“外滩踩踏”事件，致36人死亡，严重损害了上海市的旅游声誉.为避免游客数量超过景区接待能力及防范公共安全事件，建立准确的旅游趋势预测系统是每个景区及城市迫在眉睫的任务.

旅游趋势预测一直是旅游研究领域的重点研究方向，传统的旅游趋势预测依托于对景区历史游客数量进行建模预测，但传统的预测模型受限于历史数据量少、数据时效性差等因素，导致预测模型难以满足实际需要^[1].互联网搜索数据源于网络用户搜索行为，在搜索时就能进行数据统计而非事后统计，较传统统计数据更具时效性；并且互联网搜索数据公开免费使用，获取便捷，相比传统抽样问卷调查和访谈，可以节省大量经济成本和时间成本且数据更具代表性^{[1, 5-6]}.利用互联网搜索数据构建预测模型，其预测精度及可用性已被很多研究证明^{[5, 7-9]}.本研究通过挖掘互联网空间与现实世界的映射关系，分析百度指数数据的时空分布特征，结合ARIMA模型设计出基于百度指数的旅游趋势预测方法，可为景区及城市旅游管理部门提供旅游管理决策依据.

1. 文献综述

利用互联网搜索数据开展预测已成为各行业的研究热点，利用互联网搜索数据可以进行气候预测^[10-11]、疾病预测^[12]、房价预测^[13]、失业率预测^{[9, 14]}、经济预测^[15]等研究.近年来，国内外众多学者也开始研究互联网搜索数据在旅游中的应用.黄先开等^[16]以北京故宫为例，发现在ARMA模型加入百度指数能有效提升预测精度；李山等^[1]通过对一批5A级景区的百度指数及旅游人数进行统计和分析研究百度指数的前兆效应；Yang Xin等^[5]发现百度指数和谷歌趋势上不同关键词对应不同的旅游时间滞后期；Oscar Claveria等^[17]对比多种预测模型得到旅游预测精度，发现自回归积分移动平均模型(Autoregressive integral moving average model，ARIMA)在整体上预测结果最优；马莉等^[18]研究了旅游客流与网络关注度的时空特征；何小芊等^[19]通过对旅游网络关注度分析发现国内温泉旅游是一种非天然温泉依赖旅游活动；Bing Pan^[20]人发现不同级别的旅游网络关注度具有不同的幂律分布.已有研究大多采用多个与预测对象相关的搜索关键词作为自变量，收集互联网搜索数据的历史数据形成时序数据，然后运用线性回归、灰色预测等方法构建预测模型^{[5, 7-8, 21-22]}；在基于更大数据量或更高时间分辨率数据基础上，利用互联网搜索数据的时间特征来提高预测精度^[16].

综上所述，国内外运用互联网搜索数据进行旅游趋势预测已经成为目前旅游研究的热点^{[6, 13, 19]}，但研究大都停留在使用互联网搜索数据的大数据量和实时特性结合传统统计模型建立预测模型这一阶段.已有研究对互联网搜索数据本身具备的其他特征研究较少，重视数据的数值却忽视了数据属性的价值，如较少对地理位置属性进行深入挖掘.另外已有研究未深入讨论搜索关键字选择的原因及可能会带来的差异.因此，本研究选取2011年至2018年来上海市旅游的中国旅游人数数据，在选择出最优的互联网搜索关键词后，依据省级行政区划分别收集同一个搜索关键词在不同地区的百度指数数据，采用Granger因果检验方法挖掘百度搜索数据和实际旅游人口的因果关系，分析互联网搜索数据的时空分布规律，基于百度指数的空间特征及时间特征进行旅游趋势预测.

3. 研究方法

3.1. 格兰杰因果关系

格兰杰因果关系检验能够检验变量之间是否存在统计学上因果关系，其判断结果是建立旅游趋势预测模型的前提条件^{[5, 16]}.格兰杰因果关系检验运用于时间序列数据时，2个变量X，Y之间的格兰杰关系定义为：若在包含了变量X，Y的过去信息的条件下，对变量Y的预测效果要优于只单独由Y的过去信息对Y进行的预测效果，即变量X有助于解释变量Y的将来变化，则认为变量X是引致变量Y的格兰杰原因^[23].

3.2. ARIMA预测模型

ARIMA模型能够更准确地预测季节性变化，而旅游活动是明显的季节性活动，因此本研究采用ARIMA模型构建旅游趋势预测模型，其公式如下：

式中：P代表自回归项阶数；D代表序列差分阶数；Q代表移动平均项数.

3.3. 支持向量聚类

支持向量聚类是一种使用支持向量机作为工具的无监督非参数型的聚类算法，其基本思想是将数据集中的数据样本通过非线性变换映射到高维特征空间中，在高维特征空间中一个超球面使其能包围全部样本点，超球面映射数据集时可以把数据集分割成任意几类^[24].支持向量聚类的数学模型如下：

式中：‖-‖是欧式范式；a是超球体的球心；ϕ是从原始空间到高维空间映射的非线性Y映射函数；ξ_i是松弛变量，允许一些样本点位于超球体的外部；R是超球体的半径，而C∈[0, 1]是一个惩罚参数.

5. 结论

本研究选取基于2011年至2018年10月的上海市月度国内旅游人数及对应的百度指数数据，构建具有时空分布特征的百度指数与ARIMA模型结合的旅游预测模型，并在深入挖掘百度指数数据时空分布规律基础上，利用基于支持向量机的空间聚类方法解决了ARIMA预测模型的多重共线性问题.

1) 昨天的搜索者就是今天的旅游者.由格兰杰因果关系检验确定以上海市为旅游目的地的中国游客数量与上海市旅游相关百度指数存在长期正相关关系，随着上海市旅游相关百度指数数值的增大，上海市实际国内游客数量也会相应增加，确定旅游相关的互联网搜索行为与旅游行为存在密切相关性.因此，旅游相关部门和产业可通过加大互联网广告的投入，努力将搜索人口转化为实际旅游人口.

2) 旅游距离与旅游出行率呈反比.由图 1及图 6知，总体而言互联网搜索关注度与旅游目的地的相关性会因空间距离增加而逐渐减小，但少数省份如广东的百度指数没有因为空间距离增加而减少.上述特例产生的原因是该省份具有高居民收入和更多的人口，使得居民出游意愿强烈.但从整体上分析百度指数的空间分布特征，仍是旅游距离与旅游出行率呈反比的强力佐证.若上海市旅游市场增长放缓，旅游相关部门和企业则应该有针对性对不同旅游市场采取不同营销策略.

3) 百度指数的空间属性有助于提升预测精度，依据百度指数的空间属性分析其数据分布规律，并利用空间分布特征进行空间聚类优化后的ARIMA模型平均预测精度提升了23.36%.百度指数易于获取且具有实时性，其蕴含的网络用户潜在消费欲望，使旅游趋势预测更具经济价值.

4) 通过相关性分析科学地获得搜索关键词能够提高预测精度.本研究发现前人的研究中使用随机的、过多的关键字看似全面，似乎可以获得旅游目的地相关搜索数据的全部，但数据之间的相互干扰会降低预测精度；依据搜索关键词与研究目的相关性分析结果，选择一个或者几个关键词更具可行性与科学性.

百度指数公开且易得，但实际旅游人数数据的获取制约着旅游研究的发展.国内大部分景区都未对旅游人数数据进行公开，保守的数据策略亟待转变.未来研究中，将注重每日的旅游人数数据获取，以更高的时间分辨率的数据开展搜索数据和实际旅游规模的研究，以此确定准确的搜索时间和实际旅游时间的滞后值，从而提高旅游预测模型的可用性.在互联网中，不仅存在着以百度指数为代表的以表格形式存储的结构化数据，还存在着音频、视频、图像等非结构化数据，如微信的朋友圈、马蜂窝等旅游APP的旅游攻略等，对上述非结构化数据的研究将为旅游研究开辟新兴领域.

参考文献 (30)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于百度指数时空分布的旅游趋势预测研究——以上海市为例

1.
江西理工大学建筑与测绘工程学院，江西赣州 341000

2.
复旦大学环境科学与工程系，上海 200433

作者简介:
康俊锋(1978-)，男，副教授，博士，主要从事高性能GIS算法及应用研究 .

通讯作者: 方雷，博士

Tourism Trend Prediction Based on Baidu Index Spatial and Temporal Distribution

1.
School of Architecture and Surveying Engineering, Jiangxi University of Science and Technology, Ganzhou Jiangxi 341000, China

2.
Department of Environmental Science and Engineering, Fudan University, Shanghai 200433, China

计量

基于百度指数时空分布的旅游趋势预测研究——以上海市为例

通讯作者: 方雷，博士

作者简介: 康俊锋(1978-)，男，副教授，博士，主要从事高性能GIS算法及应用研究
1. 江西理工大学建筑与测绘工程学院，江西赣州 341000

2. 复旦大学环境科学与工程系，上海 200433

English Abstract

Tourism Trend Prediction Based on Baidu Index Spatial and Temporal Distribution

Corresponding author: Lei FANG

全文HTML

3.1. 格兰杰因果关系

3.2. ARIMA预测模型

3.3. 支持向量聚类

4.1. 搜索关键词的确定

4.2. 旅游趋势预测研究

4.2.1. 格兰杰因果关系检验结果

4.2.2. ARIMA模型最优参数的抉择

4.2.3. 基于支持向量机的多因素影响下的建模数据优化

4.2.4. 旅游趋势预测结果分析

目录

留言板

基于百度指数时空分布的旅游趋势预测研究——以上海市为例

1. 江西理工大学 建筑与测绘工程学院，江西 赣州 341000 2. 复旦大学 环境科学与工程系，上海 200433

作者简介: 康俊锋(1978-)，男，副教授，博士，主要从事高性能GIS算法及应用研究 .

通讯作者: 方雷，博士

Tourism Trend Prediction Based on Baidu Index Spatial and Temporal Distribution

1. School of Architecture and Surveying Engineering, Jiangxi University of Science and Technology, Ganzhou Jiangxi 341000, China 2. Department of Environmental Science and Engineering, Fudan University, Shanghai 200433, China

计量

出版历程

基于百度指数时空分布的旅游趋势预测研究——以上海市为例

通讯作者: 方雷，博士

作者简介: 康俊锋(1978-)，男，副教授，博士，主要从事高性能GIS算法及应用研究 1. 江西理工大学 建筑与测绘工程学院，江西 赣州 341000 2. 复旦大学 环境科学与工程系，上海 200433

English Abstract

Tourism Trend Prediction Based on Baidu Index Spatial and Temporal Distribution

Corresponding author: Lei FANG

全文HTML

3.1. 格兰杰因果关系

3.2. ARIMA预测模型

3.3. 支持向量聚类

4.1. 搜索关键词的确定

4.2. 旅游趋势预测研究

4.2.1. 格兰杰因果关系检验结果

4.2.2. ARIMA模型最优参数的抉择

4.2.3. 基于支持向量机的多因素影响下的建模数据优化

4.2.4. 旅游趋势预测结果分析

目录

1.
江西理工大学建筑与测绘工程学院，江西赣州 341000

2.
复旦大学环境科学与工程系，上海 200433

作者简介:
康俊锋(1978-)，男，副教授，博士，主要从事高性能GIS算法及应用研究 .

1.
School of Architecture and Surveying Engineering, Jiangxi University of Science and Technology, Ganzhou Jiangxi 341000, China

2.
Department of Environmental Science and Engineering, Fudan University, Shanghai 200433, China

作者简介: 康俊锋(1978-)，男，副教授，博士，主要从事高性能GIS算法及应用研究
1. 江西理工大学建筑与测绘工程学院，江西赣州 341000

2. 复旦大学环境科学与工程系，上海 200433