-
开放科学(资源服务)标识码(OSID):
-
随着实时空间信息技术的不断发展,网约车出行成为现代个性化出行的一种重要方式。一方面,乘客搭乘网约车实现点到点按需服务的出行方式,提高了出行计划的便利性和准确性,网约车平台也能根据实时交通状况、乘客需求分布、司机位置等因素,动态调整运力分配,提高车辆利用率和接单效率,减少空驶和等待时间。另一方面,城市化进程不断加快,城市建成环境也发生了显著变化,影响着居民的网约车出行需求,因此城市建成环境与网约车出行需求的相关性研究受到高度关注。
建成环境是居民出行的内在驱动因素,在探究不同建成环境因素对交通需求的影响研究中,最早发现土地利用指标,如商服用地、住宅用地等对出租车需求的影响较大。随着“3Ds”建成环境维度的提出,部分学者从密度与多样性方面,探讨其对交通出行行为的影响。在北京市,人口密度与道路设计在特定时间段内对出租车的需求产生一定的影响[1];在深圳市,就业密度与道路密度之间的关联程度对网约车的出入量有提升作用[2]。由于交通方式的不断增多,各种交通方式之间相互影响,一些研究又将可达性与距离纳入“3Ds”,公共交通站点稀疏的地区以及离市中心较远的居民,更愿意选择出租车和网约车通勤[3],公交站点和地铁出入口到住宅小区的距离会影响网约车的流入[4]。
探究交通出行需求影响方式最常见的方法有普通最小二乘法(OLS)、逐步线性回归,以及广义线性模型[5]。邵海雁等[6]通过空间聚类与地理探测器相结合的方式分析居民搭乘网约车通勤的影响因素;尹超英等[3]构建了多层logistic模型来探讨不同层面的建成环境对交通出行需求的影响。然而,这些方法是基于一个共同的假设,即所有变量在整个研究区域的空间上是平稳的。为了捕捉局部的变化,Qian等[7]首次将地理加权回归(GWR)模型应用到交通需求影响因素研究中,较好地解释了公交可达性、道路密度、自行车道密度对出租车出行需求影响作用的空间异质性。但是,标准GWR模型假设空间相互作用发生在相同的尺度上,所有变量采用同一带宽,这些变量在空间上往往不是同质的。后续研究中,有学者提出了半参数地理加权回归(SGWR)模型,该模型允许部分变量全局回归,其他变量局部回归。在此基础上,Chen等[8]建立了不同时间维度的半参数地理加权泊松回归(SGWPR)模型,捕捉房价、多式联运和土地利用对出租车需求影响作用的时空异质性。考虑到局部和全局尺度之间的联系,其他变量会因空间而变化,例如当空间分析尺度变化时可能不适用。
近年来兴起的交通大数据为交通出行需求研究提供了强大的数据支撑,相关研究成果不断丰富,但仍有局限性。①从研究对象来看,现有交通出行需求研究多关注轨道交通、公交车和出租车,而网约车作为出租车的一种发展模式,针对性研究较少。②从研究范围来看,现有相关研究的研究范围较小,大多为1~3个区级行政区,较少关注大范围区域研究。③从研究内容与方法来看,现有研究的时间尺度较少考虑工作日与休息日高峰时段,一般采用传统调查或官方统计数据来定义研究区的建成环境变量,或者使用时间跨度较大的交通出行需求与建成环境数据;关于网约车出行需求量的影响因素分析,常用研究方法较少考虑不同变量和尺度下的空间差异,在影响程度的解释上具有局限性。因此,本研究采用2022年9月某一周网约车GPS数据与对应时间下的建成环境数据,在基础网格单元上构建多尺度地理加权回归(MGWR)模型,与OLS和GWR模型进行比较,对MGWR回归系数进行讨论,研究建成环境对网约车工作日与休息日不同时段高峰出行需求的时空异质性影响。
全文HTML
-
上海市作为中国最具代表性的国际化大都市,其工作岗位与居民生活主要集聚在城市中心地带。本研究根据网约车空间分布聚焦于其中13个区域,按行政区分为:黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、闵行区、宝山区、嘉定区、浦东新区、松江区、青浦区。研究区域如图 1所示,地图底图来源于国家地理信息公共服务平台。根据2018年12月起实施的《城市居住区规划设计标准》,目前已建成主要居住区“15分钟社区生活圈”,让群众生活更便利、出行更便捷。基于此将研究区域进行网格划分,网格尺寸为1 km×1 km,以每个网格作为基础分析单元,研究区域共划分为6 320个基础分析单元。
-
本研究选取上海市交通运输局2022年9月3日(周六)至9月9日(周五)一周的网约车运营订单数据,包含订单ID、上下车时间、上下车地点经纬度、订单费用、订单距离、等待时间等,按照研究内容选择上下车时间、上下车地点经纬度与订单ID共6个字段(每种数据2个字段)。经过数据预处理后,网约车一周的出行需求量随时间的变化如图 2所示(每小时出行需求量为该时段发生的上车订单个数)。相关研究表明,高峰期样本总体上具有出行行为的代表性,故根据数据预处理结果选取工作日(8:00~10:00,12:00~14:00,17:00~19:00)和休息日(9:00~11:00,13:00~15:00,19:00~21:00)的早高峰、午高峰、晚高峰3个时段进行研究。
-
城市居民打车出行受主观和客观因素的共同影响。主观因素如年龄、喜好、教育程度及司机服务质量等会影响出行选择,但因数据获取难度大,研究较为有限。相比之下,交通基础设施、土地利用等客观因素更能准确反映政策、规划和地区发展水平,数据易得且分析空间大。
本研究使用的上海市建成环境数据包括人口密度数据、兴趣点(Point of Interest,POI)数据、路网数据、公交地铁站点数据。近年来,在交通规划研究中POI数据已被广泛用于表征城市建成环境[9],为探究建成环境对网约车出行需求的影响程度,本研究爬取高德地图提供的所有13种POI数据,包括餐饮美食、公司企业、购物消费、金融机构、酒店住宿、科教文化、旅游景点、汽车相关、商务住宅、生活服务、休闲娱乐、医疗保健、运动健身,并扩充构建11种交通基础设施和土地利用等外部间接影响城市出行的建成环境因素[9]。人口密度是城市出行需求的重要因素[2],根据WorldPop发布的2022年中国人口栅格数计算各网格内人口总数与网格面积的比值得到人口密度,并按照工作日和休息日分为工作人口密度和居住人口密度。道路密度反映了区域内的交通可通行性,较高的道路密度往往表示道路覆盖程度高,出行便利[1],本研究选取上海市主干道、次干道密度,利用OpenStreetMap开源地图获取上海市路网数据,通过计算各网格内道路长度与网格面积之比得到道路密度。公共交通存在“最后一公里”需求,停车难度影响居民出行方式,公交、地铁站点及停车场通过百度地图API接口爬取获得。多样化的土地利用往往带来更多样化的出行需求,采用土地利用混合熵量化土地多样性,并通过熵权法进行计算。可达性选取各网格单元质心点与目标点陆家嘴CBD之间的距离,采用两步移动搜索法得到可达性指数。临近公交和地铁站的区域一般以公共交通出行居多[4],公交、地铁临近度描述为网格单元质心点到最近公交站点以及最近地铁站点的欧氏距离。24种建成环境变量描述如表 1所示。
1.1. 研究区域
1.2. 网约车出行数据
1.3. 建成环境变量
-
多个自变量之间的高度相关性会影响回归模型的结果,通过Pearson相关性分析可以初步识别是否存在高相关性,根据回归系数结果剔除相关性系数大于0.8的变量。多重共线性可能影响模型的稳定性,导致参数估计不精确、标准误差增大、t值降低,以及模型预测能力下降,甚至造成回归系数符号和大小的不可靠。选用方差膨胀因子(Variance Inflation Factor,VIF)来解释共线性,VIF大于5的解释变量被认定为具有严重共线性,通过多元线性逐步回归剔除VIF大于5的变量以及对因变量无显著影响的变量[10]。
-
空间自相关用来描述变量在研究区域内的空间数据特性,例如变量的观测值在地理位置上相近或相邻的地点之间呈现出非随机、系统性的相互依赖关系。采用莫兰指数(Moran's I)来度量空间变量整体自相关程度,其公式如下:
式中:I为莫兰指数;mi与mj分别为第i个网格单元和第j个网格单元的观测数值;m为某个变量的均值;n为研究区域网格单元总体个数;wij为第i个网格单元与第j个网格单元之间的空间权重矩阵。I的值域为[-1, 1][11],I>0表示正向的空间自相关,I<0表示反向的空间自相关,I=0则表示空间随机分布(即不存在显著的空间自相关)。
Z值是空间自相关检验零假设的显著性指标,Z值描述为:
式中:E(I)为某个观测变量Moran's I的期望值;D(I)为对应观测变量Moran's I的方差。本研究相关性的显著性水平α为0.01,若在此显著性水平上满足Z(I)>1.96且I>0,则可用GWR模型研究其空间异质性[12]。
-
采用3种回归模型进行实证分析,分别为OLS模型、GWR模型和MGWR模型[13]。OLS是统计学与计量经济学中广泛应用于线性回归模型参数估计的一种方法,它通过最小化残差的平方和来估计回归系数[14]。在本研究中,OLS模型作为基于全局的回归模型,假设模型参数在整个观测点分布范围内保持不变,即模型结构和参数值对于所有观测点都是统一的,对于不同的数据点以及分布不同的网格单元,模型都使用相同的参数值来描述因变量与自变量之间的关系。OLS模型不考虑观测点的空间分布与局部异质性,其公式如下:
式中:yi为第i个网格单元的因变量;xi为第i个网格单元的自变量;α0为截距;αk为第i个网格单元中每个自变量的回归系数;εi为第i个网格单元的误差值。
现实中许多地理现象的表现往往受到局部环境和邻近地区的影响,呈现出强烈的局部空间相关性。GWR模型通过赋予每个观测点与其位置有关的空间权重,估计变量之间的局部回归关系,能够有效捕捉不同网格单元自变量与因变量之间的空间异质性,减少因空间非平稳性造成的误差,其公式如下:
式中:yi为第i个网格单元的因变量;(u,v)为第i个网格单元的质心坐标;xi为第i个网格单元的自变量;βk(u,v)为第i个网格单元中每个自变量的回归系数;β0为截距;εi为第i个网格单元的误差值。
带宽是描述权重与距离关系的非负衰减参数[15],其决定了每个观测点的局部回归模型的拟合程度。过小的带宽可能导致过度拟合,过大的带宽则可能忽略重要的局部效应。GWR模型在回归过程中为所有自变量使用唯一固定带宽,MGWR模型则在GWR模型基础上采用了自适应带宽的方法,对每个自变量独立设定最佳带宽,能够捕捉到不同自变量在不同空间尺度上的影响力差异,提高了模型对空间异质性的刻画能力和回归系数的可信度[10]。这种多尺度分析更接近真实世界中复杂的空间过程模型,增强了模型的解释力和预测效果。MGWR模型公式如下:
式中:yi为第i个网格单元的因变量;(u,v)为第i个网格单元的质心坐标;xi为第i个网格单元的自变量;γ0(u,v)为局部截距项;γbwk(u,v)为自变量在第i个网格单元的回归系数;εi为第i个网格单元的误差值。
在本研究中,空间核函数选择Bi-square函数[16],其公式如下:
式中:wij为空间权重;dij为第i个网格单元与第j个网格单元之间的距离;hi为回归数据点i到最近观测点的距离。采用最小信息准则法(AICc)和黄金分割法来确定最优带宽,并对模型结果进行可视化。
2.1. 高度相关性及共线性检验
2.2. 全局空间自相关
2.3. 模型建立
-
首先对所有自变量进行Pearson相关性分析,剔除相关性系数大于0.8的变量;然后采用多元逐步回归分析法剔除VIF大于5且显著性水平过低的变量;最后对所有筛选出的变量进行空间自相关分析。筛选出变量的Moran's I都为正值且p值都远小于0.01,表明所有的变量都存在空间上的聚集现象,有一定的空间相关性,可以进行地理加权回归来探究建成环境对网约车出行的影响机制,自相关及逐步回归结果如表 2所示。本研究以“√”符号表示筛选自变量,以各个高峰时段的网约车需求量为因变量,建立回归模型进行分析[17-18]。
-
筛选变量之后将数据带入模型计算,结果如表 3所示。AICc反映了回归模型在考虑空间异质性的同时对数据的拟合效果。Adjusted R2考虑了传统R2所没有的自变量数目对R2的影响,在MGWR模型中Adjusted R2反映了不同位置对变量空间异质性的解释程度。其中,AICc越小,Adjusted R2越大,回归模型的拟合程度更高,效果更好。由表 3可知,以工作日早高峰网约车出行需求量为例,MGWR模型的AICc和Adjusted R2结果都优于OLS与GWR模型;Adjusted R2分别提升了0.426和0.082,表明它可以解释77.1%的网约车需求量波动;AICc分别减少了856.917和654.646。对于OLS模型来说,全局模型带宽为6 230;GWR模型在同一因变量下,也赋予各自变量固定带宽。而MGWR模型则为不同变量赋予自适应的带宽,允许每个变量根据自身的空间特性选择最适合的邻域范围进行局部回归。这种灵活性使得MGWR模型能够更精细地刻画各变量的空间异质性,能更好地解释自变量对网约车出行需求在时空上的影响。
-
对MGWR回归结果进行描述性统计分析,取每个变量的平均回归系数如表 4所示。当每个网格单元的回归系数为正值时,表明此变量在此区域对此时段的网约车需求有促进作用;当回归系数为负值时,则没有促进作用[1]。带宽为各自变量对因变量空间异质性的影响尺度,带宽越小,表现为局部显著性更强,空间异质性更大。如工作日早高峰的地铁站点、商务住宅、次干道密度的带宽较小,表明其影响作用的空间异质性相对较大;休息日早高峰的公司企业、购物消费、汽车相关、运动健身、居住人口密度的带宽接近全局尺度,这表明它们对每个区域网约车需求量的影响是稳定的[17]。选取商务住宅、地铁站点、次干道密度3个变量来分析高峰时段网约车出行需求的时空异质性,并从时间和空间上对回归系数进行可视化分析[19-20]。
-
商务住宅回归系数空间分布如图 3所示,从图中可以看出商务住宅对网约车在不同高峰时段出行需求的影响整体上呈正相关,但从局部来看,部分地区存在抑制作用(回归系数为负)。在工作日午高峰、晚高峰以及休息日晚高峰时段,商务住宅对网约车出行的影响表现出较小的空间异质性,普遍呈现出从青浦区到浦东新区相关性逐渐减弱的趋势。这表明,虽然青浦区、松江区和嘉定区的商务住宅数量远少于中心城区,但由于这些区域公共交通站点稀缺,距离市中心较远,因此这些区域的网约车需求较为旺盛;而浦东新区南部由于住宅小区较少,相应的网约车需求较小。
此外,在工作日早高峰、休息日早高峰和午高峰时段,商务住宅对网约车需求的影响展现了更为明显的空间异质性。在工作日早高峰时段,青浦区安享生态运动公园和虹桥机场附近的商务住宅对网约车需求的影响尤为显著;而在休息日早高峰时段,网约车需求在城市中心外部区域更强,休息日午高峰时段则逐渐减弱,但虹桥机场附近的影响始终显著。同时可以观察到,在工作日早高峰、休息日早高峰时段,松江区、嘉定区和浦东新区城市中心的回归系数为负值,这可能是因为居住在这些城市中心区域的居民通勤距离较短,更多依赖公共交通或自驾出行;在休息日午高峰时段,负向影响区域有所扩大。
-
地铁站点对网约车在不同高峰时段出行需求的影响整体呈正相关,但在局部地区仍表现出抑制作用。由图 4可以看出,地铁站点对网约车出行需求的影响在各个时段均表现出高度的空间异质性。
工作日早高峰与休息日早高峰的空间异质性基本相似,正向影响呈现出从松江区和浦东新区先增加后减少的趋势。虹桥机场附近的地铁站点对网约车出行需求的影响尤为显著,其次是浦东机场附近,表明地铁与网约车之间存在互补关系。在工作日午高峰与休息日午高峰时段,空间异质性表现出相似的趋势,青浦区、松江区、浦东新区的地铁站点对网约车需求的正向影响较大,尤其是虹桥机场和浦东机场的地铁站点附近影响最为显著。工作日晚高峰与休息日晚高峰时段的空间异质性也类似,依然表现为虹桥机场和浦东机场的地铁站点对网约车需求影响最为显著,并呈现出外围显著性大于中心城区的空间分布。这种现象可能是由于上海市外围地区公共交通设施相对稀少,居民更倾向于使用网约车,或者是由于“第一公里”和“最后一公里”的接驳问题,虹桥机场和浦东机场交通枢纽附近的网约车需求较为突出,网约车在这些区域填补了公共交通的空缺。
-
次干道密度对网约车出行需求量在上海市具有显著的空间异质性,且在不同时段和不同位置的影响程度呈现相似的模式。由图 5可以看出,次干道密度在城市中心对网约车出行需求具有较强的促进作用,其影响程度以虹桥机场交通枢纽和陆家嘴CBD附近最为显著。高密度的次干道网络使得网约车能够在不同地点之间更高效地接驳乘客,减少了行驶里程和等待时间,从而提升了出行效率,这也使得网约车更具吸引力,吸引了更多用户选择网约车服务。此外,网约车司机更倾向于在服务水平较高的道路上载客,而城市中心完善的路网结构和基础设施进一步吸引了更多网约车的运营。
3.1. 多重共线性及空间自相关检验结果
3.2. 模型结果对比
3.3. 时空异质性影响分析
3.3.1. 商务住宅
3.3.2. 地铁站点
3.3.3. 次干道密度
-
本研究探讨了上海市工作日和休息日的早、中、晚高峰时段网约车需求量与建成环境之间的多尺度空间关系。基于多源时空大数据,围绕密度、设计、土地多样性、可达性以及公共交通,构建MGWR模型,研究结果表明:
1) MGWR模型对比OLS与GWR模型,解释力与拟合程度都有较大的提升,可以解释70.6%至77.1%的网约车需求量的空间变化规律。通过回归系数可视化,MGWR模型能更敏锐地识别并量化各建成环境因素在不同地理区域和时间窗口对网约车需求的特定影响,同时也说明了该模型在大规模城市交通研究中的适用性。
2) 对商务住宅、地铁站点以及次干道密度进行分析,建成环境因素对网约车需求量的影响取决于MGWR模型发现的不同最优尺度。在绝大多数情况下,这3类因素对网约车需求量都为正向影响,在不同时间段,少许局部位置表现为负向影响,不同空间位置的影响程度也是不同的。
3) 建议采取针对性的差别化发展政策,优先关注建成环境因素对网约车需求量有局部规模影响的地区,因为局部针对性的政策实施效果比全局规划更有效,成本更低。就本研究案例所示,针对工作日、休息日早高峰所呈现的空间异质性,在城市外围如松江区、青浦区、嘉定区北部、宝山区北部居住区域优化公共交通设施与网约车出行,提高居民通勤效率,减轻进城道路拥堵。针对地铁站点所呈现的空间异质性,亟需建设一个全面覆盖的地铁网络,扩展地铁在松江区、青浦区、嘉定区、宝山区、浦东新区的线路,做好“第一公里”和“最后一公里”的交通供给,加强地铁和网约车之间的互补关系。国际机场附近区域在任意时段均表现出局部显著性的特征,网约车平台可根据机场交通枢纽客流提前调度,避免供给过度或供不应求;也可加强交通诱导,引导外来人员公交出行,缓解道路拥堵。同时,网约车司机应在服务水平较高道路上巡航,以增加载客机会。