-
随着以博客、物联网和移动互联网等为代表的新型社交网络的快速发展,以及新型移动设备的普及,数据和信息呈爆炸式增长[1].大数据已经发展为重要的研究和应用领域,并成为许多学科的研究热点[2-3].人居环境科学作为强调人与环境之间相互关系的科学,将人的行为特征作为重要的研究要素应用于城市规划、建筑设计和景观设计等专业领域[4].随着大数据资源的急剧增加和技术的日益成熟,移动通信数据、point of interest (POI)数据、社交媒体数据和智能刷卡数据等不断出现[5],这为人居环境研究带来了重大变革和机遇.大数据弥补了人类行为特征反馈,如问卷调查、访谈等途径的滞后性和样本小的不足[6],直接通过人的即时行为(如POI签到、刷卡等)判断人的行为和空间使用方式.海量个体数据的简易搜集与挖掘过程,使得城市研究能够针对不同对象做出更准确的信息回馈[7],如根据共享单车大数据掌握居民早晚出行高峰和区域内流动的规律[8]、利用用户微博的推送数据测定中原城市群空间联系强度等[9].近年来,大数据在风景园林规划与设计领域的应用研究呈现上升趋势,且类型多样[10].在景区主题形象感知[11]、游客行为模式[12]、绿道规划[13-14]、绿地使用评价[15-17]、公园管理[18-19]和流动性景观系统开发[20]等方面都有了大量研究成果.随着社交网站信息量的极大丰富,结合网络数据开展情感分析研究逐步兴起. Tolia-Kelly D P[21]认为情绪归属于即时、含蓄和虚拟的日常生活环境,气候、光照、色彩和空间等环境要素都会对情绪产生深刻的影响.情感分析结果可以直接呈现游客对所处空间的情感状态,情感状态也反映了人所处环境、周围人的态度以及自身经历的变化. Sauter D等[22]对社交网站的签到等文本数据进行挖掘,分析居民在不同场所的情绪和感受,进而识别城市的积极空间和消极空间;高慧君等[23]利用气象数据和微博数据计算出气候舒适度指标和游客情感值,分析气候舒适度与游客情感之间的相关关系;于静[24]利用微博数据研究和总结了游客在西安旅游的情感时空变化规律.本研究以杭州西溪国家湿地公园为例,利用微博网站提供的应用程序编程接口(application programming interface,API),获取2018年游客在该公园中所发表的微博数据,运用情感分析方法研究游客情感的时空变化特征,为今后公园规划设计提供理论依据和实证研究基础.
全文HTML
-
杭州位于浙江省北部、杭州湾西端,属亚热带季风气候,四季分明、雨量充沛.全年平均气温为17.8 ℃,平均相对湿度为70.3%,年降水量为1 454 mm,年日照时数为1 765 h.杭州是长三角地区重要的中心城市,也是文化和旅游部确定的中国最佳旅游目的地城市之一,自古就有“人间天堂”的美誉.截至2018年底,杭州共有5A级景区3个,西溪国家湿地公园为其中之一.
西溪国家湿地公园(30°16′18″N,120°3′42″E)是全国首个国家级湿地公园,位于杭州市城区西部.区位条件优越,交通便捷.北邻浙江大学紫金港校区,南接杭州绕城高速留下枢纽,距离杭州主城区武林门约6 km,距西湖5 km,总面积约11.5 km2,共有8个出入口.园区70%的面积为河港、池塘、湖漾和沼泽等水域. 6条河流纵横交汇,其间分布着众多的港汊和鱼鳞状鱼塘.园内不仅有质朴的自然景观和丰富的生态资源,还有寺庙庵祠、桥亭台阁、宗教遗迹和历史文人别业等众多建筑遗址,而且民俗活动长盛不衰.空间布局总体分为东部湿地生态保育区、中部湿地生态旅游休闲区和西部湿地生态景观封育区.目前开放区域约3.5 km2,环园游步道长8 km,步行一圈需3.5 h以上.园内有摇橹船、电瓶船、陆地步行和电瓶车4种游赏方式,建有齐全的商业集市、精品酒店和餐厅等旅游配套服务设施.
-
从平台数据的丰富性、开放性及与移动终端结合的紧密性考虑,本研究选取新浪微博作为数据获取平台.微博不仅在中国社交网络中占据领先地位,更成为中国最具影响力的社交媒体之一[25].截至2018年上半年,全国微博用户规模为3.37亿人,手机微博用户达3.16亿人[26].微博可以通过地理位置的自动标注及用户上传的文本和图片,将游客的移动位置和情绪表达记录下来,经过长时间的积累便会形成大规模的数据量,这些数据很少受到外界干扰,其真实性较高.
借助新浪微博提供的位置服务动态API获取西溪国家湿地公园范围内2018年1月1日-12月31日的微博用户签到数据.所获取的每条数据均包括用户ID、性别、签到点经纬度、发布时间、注册地和微博文本等8类信息,数据结构见表 1.
利用ArcGIS叠置工具进一步明确位于西溪国家湿地公园边界内的数据,同时删除这些数据中重复、空白、代购和房屋出租等无意义内容和无关网页链接,最终获得7 109条有效微博签到数据.
-
微博的文本类型分为纯文本和文本、表情混合2种.纯文本的微博情感值为文本经算法计算得出的值,因自然语言处理不是本研究的重点,故采用BosonNLP情感引擎进行文本的情感值分析.它基于上百万条社交网络平衡语料和数十万条新闻平衡语料的机器学习模型(相比传统的词典模型更为高效)[27].结合自主开发的半监督学习技术,经过行业数据(包括微博)标注学习后,正负面情感分析准确率可达85%~90%.安装好Software Development Kit (SDK)后运用Python语言简单编程输入文本即可计算文本的情感值,所得结果为0~1的实数,数值越大,情绪积极程度越高.为了便于研究,将数值换算成0~5来表示文本情感从消极到积极的程度;文本、表情混合的微博采用文本情感值和表情情感值的算术平均值.表情情感值计算采用赋值法,计算过程是将表情符号所代表的文字按照“非常积极”至“非常消极”从高到低分为5类,分别对应情感值4.5,3.5,2.5,1.5,0.5(表 2).如有多个表情符号,则以情感值最高的为准.
-
为排除公园内签到数差异对结果产生的影响,更加直观呈现游客情感值的空间分布情况,在ArcGIS中建立边长为50 m×50 m的方格网,每个方格区域的游客情感值为该方格内的签到微博的情感值的算术平均值,其计算公式为:
式中:Pi为第i个覆盖公园的网格的游客情感值,mx为第x个落在该网格范围内的微博情感值,n为落在该网格范围内的微博总数.采用自然断点聚类方法将这些网格的游客情感值划分为10类,以颜色深浅区分每个方格网内情感均值的高低.
-
不同情感类型的微博在空间上聚集度的可视化可以帮助识别公园内的积极情感空间和消极情感空间.根据情感值对所有微博进行分类,0~2为消极情感微博,2~3为中性情感微博,3~5为积极情感微博,将分类的数据分别运用ArcGIS中的空间分析计算点要素的聚集区域,计算公式为:
其中:设置查找半径r为30 m,kscale为栅格中心点到查找半径内其他点的距离与r的比例,通过颜色的深浅反映聚集程度的高低.
-
词频分析是一种用于文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度[28].将分类好的微博语料通过词频软件分词计算可以获得该段语料中的高频词汇,也可以对名词、动词、数词和形容词出现的次数进行统计,从而得到此类别中游客共性的行为、感想和关注的对象.
2.1. 数据采集
2.2. 情感值计算
2.3. GIS空间分析与统计
2.3.1. 总体分布统计
2.3.2. 核密度计算
2.4. 词频分析
-
游客情感的时间变化分析主要以月、周、节假日为单位,研究在不同时间尺度下游客情感所表现出的变化特征.游客年均情感值为3.616,处于一般积极的情感值范围.
以月为单位,将每个月的情感均值与微博数量进行比较发现,情感值与微博数量之间没有明显的相关性(图 1).统计每个月游客情感的平均值表明,月变化的波动情况较为明显,波动范围为[3.297,3.806],极差0.509,呈现波浪式变动趋势. 3月和11月游客情感值较高,7月较低.通过词频分析计算,3月高频词汇为“赏花”“春色”“花朝节”“微风”“踏春”等;11月高频词汇为“秋天”“阳光”“暖阳”“太阳”等.经查询,2018年3月该公园举办了花朝节、探梅节和春季游园会,11月举办了听庐节和洪园干塘节.说明鲜花的开放、活动的举办以及舒适的天气会对游客的情绪产生积极影响,但在其他月份也举办了类似节庆活动,如端午龙舟会、火柿节等,因此,活动的举办可以影响游客情绪但不是唯一因素. 7月高频词汇为“天气”“盛夏”“下雨”“夏天”等,说明炎热的天气可能会对游客情绪造成不良影响.为了验证这个假设,计算7月无雨的工作日日均游客情感值,并与日期对应的最高温度进行一元线性回归分析后发现,相关性具有统计学意义,相关系数R2为0.446(图 2).而8月和9月同为炎热的夏季,由于七夕、中秋2个节日使炎热天气的影响减弱,表现较高的情感状态.
以周为单位,统计游客情感和微博数量每天的平均值,绘制周变化曲线图(图 3).情感均值范围为[3.513,3.726],极差0.213,说明周几出游对游客情绪的影响不大.微博数量一周内的变化呈“U”型,周六、周日和周一的微博数量相对较多,因此,周末与周一会接待更多的游客.
对游客在节假日的情感变化情况进行分析,以元旦、春节、清明、五一、端午、中秋和国庆7个国家法定节假日为例,分别统计节假日期间的游客情感均值和微博数量.如图 4所示,游客在节假日的情感状态普遍较高,其中清明节最高,达到4.246,当天的微博数量也是最多的(276条).对情感值最高的3个节假日中微博文本进行分析,高频词为“天气”“开心”“快乐”“美景”及节日名词;情感值最低的五一劳动节的微博文本分析后的高频词为“闷”“雨天”“湿”.经查询,2018年5月1日-2018年5月7日中有6天是阵雨,其他节日为无雨或偶有阵雨.因此,节日氛围、天气晴朗和优美景色会对游客情绪造成积极影响,下雨和低气压会使游客感到不适.
-
由图 5可见,情感均值总体上呈较高状态. 图 5中共有网格116个,情感值在3.0~5.0的网格有97个,情感值在2.0以下的网格仅有4个,消极情感的空间占比很低.均值4.0以上的景点出现在大池桥、曲水寻梅、芸台书舍、龙舟盛会等地;均值在1.5以下的区域为高庄售票处、西溪栖悦城.园内景点不会使游客感到极度不适,高情感值的空间以历史文化景点、环境品质高的休憩区域、活动举办地和沿岸为主,其余网格大多在中性偏积极情感值范围内,并呈现均匀分布的特点.引发游客编辑微博表达情感的地方并没有广泛分布于整个公园,而主要集中在几个商业区.为了更加明确游客抒发情感的热点,对每个方格网范围内所发微博的数量进行降序排序,微博数前10的区域见表 3.这些区域游客涉足较多,包含景点、精品酒店、商业街区和出入口4种类型.从情感均值来看,景点的游客情感高于其他3种类型,情感值位列前3位的洪氏宗祠、西溪悦榕庄和蒋村集市生活街区都以特色建筑(群)为主体,风格较一致.
-
微博数量的多少能够反映游客表达情感时所热衷的区域的空间差异.分别从积极和消极这2种类型来研究不同情感的空间分布特征. 图 6表明,积极情感在空间上的分布情况与总体分布较为类似.积极情感最密集的区域为蒋村集市生活街区与西溪天堂,其次为南门、西南门和洪园区域.这些区域聚集了餐饮店、工艺坊、休憩点和文化创意商铺,同时包含了活动举办地点,说明互动式的交易体验和民俗文化展示更易提升游客的情感.其他游览景区的微博数较少可能是由于游客在游览过程中无暇操作发布微博,但是龙舟盛会、观鸟亭、曲水寻梅(西溪梅墅、梅竹山庄、西溪草堂片区)、莲滩鹭影和湿地植物园等地聚集了多数游客发表积极情感的微博.这些区域是西溪国家湿地公园“三堤十景”中的著名景点(或其附近),具有自然野趣、环境幽静和水塘交错的特点,因此美景也是提升游客情感的重要因素.从图 7看出,游客的消极情感与积极情感的分布位置大体一致,但密度范围和数量有所减少.结合消极情感微博的高频词来看,“天气”“蚊虫”是引起游客消极情感的主要原因,所以游客在同一区域会表现出不同的情感状态是天气、节假日等因素造成的.总体来看,西溪国家湿地公园没有表现出因本地环境不佳导致的消极情感空间,游客对园内的景观较为满意,情感体验良好.
3.1. 游客情感的时间变化
3.2. 游客情感的空间分布
3.2.1. 总体分布
3.2.2. 积极、消极情感空间分布
-
杭州西溪国家湿地公园内游客所发的微博经过量化情感分析,科学地表明了优越的自然环境、丰富的娱乐活动和特色的历史文化对游客情绪可以产生积极影响,但高温等天气条件及蚊虫等外在因素也会影响游客的积极情绪.
根据研究结果,提出一些建议:在公园规划设计上,一是要重视展现地域文化特征.应充分挖掘本地特色民俗和历史典故,设计建造带有地方元素的新式建筑.二是要合理利用近水空间.游客在亲水空间的满足感更为强烈,因而在安全措施建设完善的前提下,可利用原有水域布置更多的亲水空间.三是要关注公共健康.湿地公园的水湿生植物多、水域范围广、相对湿度大,造成蚊虫对游客侵扰,应营建利于蚊患防控的植物景观.在公园运营和管理方面,选择3月、11月等气温适宜的时期或节假日举办丰富多彩的旅游体验活动和项目. 3月正处于花期,11月气温凉爽,此时举办“花朝节”和“赛龙舟”等内容丰富、群众喜闻乐见的民俗活动,可以吸引更多游客,烘托节日气氛.
本研究尚有一些不足之处.由于微博等社交媒体的主流使用者限制,所以结果更偏向于青年移动社交网民,没有针对不同年龄层次游客进行研究,未开展以24 h为单位的游客情感变化研究.本文是对城市公园游客情感的探索性研究,未来可以开展更多的相关研究,如对游客上传的公园图片数据内容进行分析、对基于社交媒体数据与传统统计数据的交叉验证等.