-
在地学研究中,尤其是对土地利用变化的研究,不管是“解释”还是“评价”,均趋向于对自然和人文多种影响因子的综合[1-2],由此对数据科学性、可靠性,特别是对空间数据和非空间数据精细化对接的要求越来越高.其中,空间数据是表示空间实体位置、形状、大小及其分布特征诸方面信息的数据,具有定位、定性、时间和空间关系等特性;而非空间数据则是表示空间实体的空间属性以外的其他属性特征信息的数据,是对空间数据的说明,又称为属性数据,主要是面向社会经济数据,如一个城市的人口、GDP、绿化率等.建立空间数据与属性数据间的连接,需要对非空间数据进行空间化处理,并应尽可能地将各类影响因子的空间分布状态置于同等分辨率下,以便于精确地分析评估人类活动的自然—人文过程及其效应问题.由于空间数据的实体性,当前大量研究均能较为精细地对其表达和利用;但以大行政区域为空间单元的统计数据却掩盖了区域内部的差异和不均衡[3],导致社会经济数据在研究和使用中存在数据结构不一致、空间单元不匹配和数据在空间单元内均一化等问题[4].为反演出社会经济数据在既定时间和既定地理空间中的分布状态,创建区域范围连续的社会经济数据表面,当前面向县(区)域、省域口径统计数据的空间化处理方法主要采用空间插值法、土地利用/覆被影响模型法、多元数据融合分析法、遥感反演验证等[4],揭示县域、省域内部不同空间范围上的差异[5-6].不过,这些方法虽实现了非空间数据与空间数据的对接,但总体上仍处在探索阶段,且适用的数据类型、空间尺度等也不尽相同,其精确性普遍较差,往往难以满足非空间数据在村域尺度精细化空间表达的要求[7].本文依托国土资源部重点区域土地生态状况调查与评估项目之“西南山区生态敏感区土地生态状况调查与评估”,选取“精细化评估”典型区域的重庆市丰都县为研究区,以社会经济数据空间化研究的焦点——人口数据和GDP数据为对象,应用多因素回归分析模型探讨社会经济数据空间化处理方法,期望能够为非空间数据的空间精细化研究提供参考和借鉴,为深入推进土地利用变化及其效应的精细化表达提供支撑.
全文HTML
-
事物的发展变化是在与其他事物相互联系相互影响的过程中进行的,用于描述事物空间特征和属性特征的各类变量是这种相互作用关系的具体表达,可分为函数关系和统计关系两种关系[8-9].函数关系是对一一对应的确定性关系的描述,当一个变量取一个值的时候,另一个变量按照确定的函数关系式也取一个确定的值.而当一个变量的值不能由某一变量唯一确定,或当一个变量取一定值另一变量的取值有几种可能的时候,这种关系就是统计关系.通过对大量数据相互关系的统计分析,可以确定变量间关系的强弱,并可采用相关系数(R)表征,其取值在[0, 1]之间.一般认为,R>0.8的变量高度相关,R介于0.5~0.8之间的变量低度相关,R<0.3的变量相关性微弱,可视为不相关.由于相关分析与线性回归分析所进行的检验是等价的,因此可据此构建线性回归模型来进一步揭示变量间的相互关系.
非空间数据空间化处理过程中,变量关系复杂,并非一一对应,且一个变量的值难以由某一变量唯一确定,因此对非空间数据空间化的处理适用于统计关系.在进行空间化处理之前,首先拟定非空间数据空间化指标,并识别可能影响其分布的因素,进行统计显著性检验,剔除不相关的因素,进而建立非空间数据空间化的线性回归模型(式1),最后将非空间数据空间化指标值按土地类型的最小单元分解到对应的空间范围,即可与空间数据构成完整的分析数据体系,开展土地利用变化及其效应评估研究.
式中:Y为非空间数据空间化指标;βk为偏回归系数;X为各类影响因素;μ为残差;k为自变量个数.
-
非空间数据主要对应社会经济数据,即人口、GDP、城市化率、工业产值、固定资产投资等统计指标数据.这些数据反映了统计单元(行政区域)之间的差异,却难以表征行政单元内部的空间差异.在此,本文选取社会经济数据中的人口数据和经济数据作为空间化处理的对象,并拟定人口密度和GDP规模两项指标,重点对影响其空间分布的因素加以考察.
参考相关研究[3, 10-11],发现人口分布格局与土地利用/覆被格局具有耦合性,两者关系密切.土地利用/覆被数据,特别是耕地、林地、草地均是人类生产活动在土地利用上的直观反映,已经包含了社会经济数据的绝大部分信息;同时,在农村地区,农村建设用地特别是农村居民点用地是农村人口的直接载体,人口分布越集中,其用地比例越高;人口分布越稀疏,其用地比例越低.由此可估计,人口密度分布与土地利用/覆被指数具有很强的相关关系,科学地确定这种相关关系,可以为人口数据的空间化提供可行路径.此外,人口分布与地形条件也有紧密的联系.山地丘陵区由于地形地貌复杂,人口分布很大程度上还受到地形条件的限制,往往海拔越高,地形条件越差,人口分布相对越少.
而对于GDP而言,从收入角度看,等于固定资产折旧、劳动者报酬、生产税净额和营业盈余之和.在农村地区,其空间分布实际上反映了农村地区农、林、牧、渔业及乡镇二三产业的综合情况,最直观的表征就是相应土地利用类型指数的大小.因此,GDP的空间分布也与土地利用/覆被数据密切相关;同样,类似于人口分布,也会受到地形条件的影响,在地形条件较好的区域,GDP的面状聚集度往往越高[12].
-
依据非空间数据空间化处理的基本原理,在对人口和GDP空间分布影响因素识别的基础上,基于多元数据融合思想和土地利用/覆被的影响[4],即可采用多元线性回归分析构建人口密度、GDP规模空间分布模型,最终实现人口密度、GDP数据村域尺度的精细化空间表达.
1.1. 基本原理
1.2. 因素识别
1.3. 模型构建
-
丰都县位于东经107°28′03″-108°12′37″,北纬29°33′18″-30°16′25″,面积2 900.86 km2,是三峡库区实施生态涵养和生态屏障建设的重要区域.境内地形南高北低,长江北岸以丘陵为主,南岸以山地为主,呈“四山”夹“三槽”的地貌格局,海拔118.5~2 000.0 m.境内气候温和,四季分明,属亚热带湿润季风气候,年均气温18.5 ℃,年均日照时数1 311.8 h,年平均降雨量1 091 mm,无霜期318 d.境内河流均属长江水系.土壤以酸、中、石灰性土壤为主,分别占48.3%,17.1%,34.6%.全县现辖30个乡镇,从经济发展梯度来看,长江沿岸片区乡镇经济实力明显好于北部中山片区和南部高山片区.
-
依据2015年丰都县统计年鉴,将分乡镇的人口数据和GDP统计数据整理出来.土地利用数据来自丰都县国土资源和房屋管理局,并通过ArcGIS软件平台在土地利用现状数据库中提取分镇、分村的土地利用/覆被数据及地形数据.
数据处理方法.借助ArcGIS 10.1,SPSS 19.0等软件平台,第一步,将研究区行政区划图和所有土地覆被类型图转换到Gauss_Kruger,Xian_1980_3_Degree_GK_Zone_36同一投影和坐标系下;第二步,在ArcMap中将土地利用类型进行调整,剔除实际无人居住或无经济生产功能的水域、滩涂沼泽、自然保留地,筛选并保留与人口分布和经济发展关系密切的建设用地、耕地(园地并入耕地)、林地、草地4类土地覆被类型,将研究区行政区划图与处理后的土地覆被图叠加,以“乡镇名称”字段为区域字段,进行分区统计,计算研究区的土地覆被总面积以及各类用地面积;第三步,以研究区1:10 000数字高程模型为地图,通过乡镇行政单元提取平均高程、坡度;第四步,将以上统计数据导出到Excel表中,用于数据分析和模型建立;第五步,根据第二步提取的研究区所有土地覆被类型的面积,以乡镇为单元,将每种土地覆被类型的面积分别除以各乡镇的行政区划面积,得到各乡镇的土地覆被类型指数;最后,查询统计年鉴得到研究区各乡镇的人口密度及GDP数据(表 1).即基于各乡镇人口密度、GDP规模数据与土地利用/覆被、地形条件等的相关关系,通过SPSS软件对人口密度、GDP规模数据与相关影响因素数据进行多元线性回归分析,得出表征人口密度、GDP空间分布的拟合方程,进而推算出村域尺度的人口密度、GDP数据.
-
在模型构建过程中,自变量虽然较多,但不是每一个自变量的回归关系都有统计学意义,而对回归没有统计学意义的自变量又不能简单地删除;同时,由于自变量之间线性关系的存在,很难抉择自变量的去留.因此,为得到最优回归方程,需要对自变量进行筛选.在此,采取向后剔除法准则(F-to-remove≥0.100的概率),对回归模型中无统计学意义的自变量依次剔除,直到回归模型中自变量都有统计学意义为止.
以人口密度Y1为因变量,以建设用地指数X1、耕地指数X2、林地指数X3、草地指数X4、高程X5、坡度X6为自变量,利用SPSS软件进行多元线性回归分析,最终得到回归方程如下:
统计检验显示,方程拟合优度方面,相关系数R=0.931,可决系数R2=0.867,修正后的可决系数
$ {\bar R^2}$ =0.851,结果表明,估计的样本回归方程较好地拟合了样本值;同时,通过F检验,在给定的显著水平α=0.05下,p=0.000,所以,总体回归方程是有统计学意义的;另外,通过t检验,β0,β1,β2,β3所对应的p值均小于α=0.05,所以人口密度Y1与建设用地指数X1、耕地指数X2、林地指数X3之间有统计学意义,而草地指数X4、高程X5和坡度X6,统计结果无统计学意义而被剔除.同样,以GDP规模Y2为因变量,以建设用地指数X1、耕地指数X2、林地指数X3、草地指数X4、高程X5、坡度X6为自变量,利用SPSS软件进行多元线性回归分析,最终得到回归方程如下:
统计检验显示,方程拟合优度方面,相关系数R=0.922,可决系数R2=0.850,修正后的可决系数
${{\bar{R}}^{2}} $ =0.838,结果表明,估计的样本回归方程较好的拟合了样本值;同时,通过F检验,在给定的显著水平α=0.05下,p=0.000,所以,总体回归方程是有统计学意义的;另外,通过t检验,β0,β1,β2所对应的p值均小于α=0.05,所以GDP规模Y2与建设用地指数X1、耕地指数X2之间有统计学意义,而林地指数X3、草地指数X4、高程X5和坡度X6,统计结果无统计学意义而被剔除. -
虽然构建了较为显著的社会经济数据多元线性回归模型,但模型预测结果的精度是否达到空间化分析的要求,还有待验证.为此,对丰都县330个村(居委会)按5%的比例随机抽取约15个村(居委会),检验人口密度Y1和GDP规模Y2的预测结果与实地调查结果的差异.其中,将各村建设用地指数X1、耕地指数X2、林地指数X3代入式2(表 2),计算各村人口密度预测值;将各村建设用地指数X1、耕地指数X2代入式3(表 2),计算各村GDP规模.而实地调查数据来自对15个村经济社会概况的摸底,并参考各村2015年农村经济统计报表,以及征求村镇干部意见综合予以确定.预测吻合度的检验,就是将人口密度和GDP的预测结果与实地调查的各村人口密度和GDP进行对比分析.以人口密度为例,用人口密度预测值与实地调查的人口密度值之差取绝对值,除以实地调查的人口密度值,再用1减去所得比值后乘以100%.吻合度计算公式为:
式中:Di为非空间数据多元线性回归预测得到的i村人口密度值;D0为实地调查的i村人口密度值;Pi为该村吻合度.
由表 3可以看出,随机抽取的15个村中,通过回归分析得到的空间化结果吻合度普遍在80%以上,说明研究采用的非空间数据多元线性回归模型能够较真实地反映研究区实际情况,能够满足研究区村域尺度社会经济数据精细化空间表达要求.
2.1. 研究区域概况
2.2. 数据来源与处理
2.3. 建立并估计社会经济数据多元线性回归模型
2.4. 社会经济数据多元线性回归预测结果检验
-
基于多元线性回归分析的数据融合方法,能够较好地模拟山地丘陵区县域社会经济数据的空间分布格局.目前,社会经济数据空间化处理的方法主要包括空间内插法、土地利用/覆被影响模型、多源数据融合法和遥感反演法.面积权重内插法是空间内插法中最为简单常用的一种社会经济数据空间化处理方法[13],其假设前提是区域的属性值是均匀分布的,因此当区域内存在湖泊、河流、沼泽等无人居住的斑块时,就需要对该方法进行改进.由此可见,该方法在样点密集的小区域应用较为合适;在尺度较大、采样稀疏或地理环境变化剧烈的区域,则很难保证其模拟结果与实际情况的吻合度.而基于高时空分辨率遥感影像提取的土地利用/覆被等空间信息,建立的社会经济数据与相应土地利用/覆被类型所占面积之间的模型关系,可以较好地实现社会经济数据的空间化[14];但其最大问题在于,遥感影像解译过程中信息的丢失和损坏,使得提取结果存在一定误差.当然,基于合适的空间分布单元,采用相关性分析,确定影响社会经济数据空间分布的主要因子,由此建立社会经济数据与各影响因子间回归模型的多元数据融合方法,也能够得到社会经济数据的空间分布模拟图[15];不过,其主要问题是,受指标选取影响,往往造成信息冗余和同类信息影响程度被夸大,以致增加了模拟结果的不确定性.此外,还有利用遥感数据反演社会经济特征的遥感反演法[16],遥感数据本身的像元过饱和、像元溢出等问题以及遥感影像判读时的人为误差,均限制了其对社会经济数据模拟的精度.鉴于上述方法的优缺点,本研究中,针对西南山地丘陵区地理环境复杂多变的特征,结合人口密度和GDP规模的影响因子识别,以土地利用现状数据库为基础提取数据,一方面最大程度地避免了遥感影像提取导致的信息遗失和破坏;另一方面,以相关性分析判定变量间关系的强弱,以多元线性回归分析进行数据融合,并依据向后剔除法准则剔除统计结果无统计学意义的因子,既建立了社会经济数据与影响因子(土地利用/覆被类型)间的关系,又降低了信息冗余度,拟合方程修正后的可决系数R2均达到0.80以上,可以说较好地模拟了研究区社会经济数据的空间分布格局.
多元线性回归模型能够较好地实现村域尺度社会经济数据的空间精细化表达.村是农村最小、最基本的社区,是一个系统完备的社会单元,具有社会结构的基本构成——经济、政治、文化[17].典型区域的案例研究是认识全球变化的重要途径,但离不开微观尺度的土地利用研究,而村域尺度的土地利用行为能够为此提供依据.随着对自然和人文多种影响因子综合的研究趋向加强,对村域尺度社会经济数据空间精细化表达的要求也愈益迫切.然而,目前宏观—中观尺度的社会经济数据空间化是研究报道的重点,如全国尺度的GDP密度分布图[18]、人口密度空间化[19],省域尺度以县为单元的人口分布[20]、GDP空间分布[21]等,关于村域尺度社会经济数据精细化表达的研究尚不多见.本研究通过多元线性回归分析,将以乡镇为单元拟合的县域社会经济数据融合模型,应用于村域尺度社会经济数据的空间精细化表达,并随机抽取5%的村,参考各村2015年农村经济统计报表,以及征求村镇干部意见综合确定各村人口密度和GDP规模,对照多元线性回归模型预测结果进行验证,结果显示吻合度普遍在80%以上,说明该模型能够较好地用于村域尺度社会经济数据的空间化,对开展土地利用变化相关的典型区域案例研究具有支撑作用.
村域尺度社会经济数据空间化的实现有助于深化对典型区域土地利用变化原因和土地生态安全状况的研究.以往在数据处理过程中,获得和使用的统计数据都是通过自下而上逐级汇总获得的,所以基本上都是以各级行政单位为数据的收集和统计单位,但这种数据的获取和表达方式并不能揭示这些数据内在的空间差异特征.很多实际研究中,这些数据难以与典型区域自然因素数据进行叠加分析.如在土地生态安全评估中,生态压力、生态建设保护与发展协调指标涉及的人口密度、GDP规模数据,若要与气象数据、土壤数据、土地利用覆被数据等进行叠加分析,而不细化社会经济数据的统计单位(村),这些叠加分析将难以进行.同时,若仅仅采用简单的将统计数据平均分配到各个栅格的方法,不仅无法体现评估的科学性、精细化,更会致使评估结果同质化,也不能体现土地生态安全状况在评价单元(村)间的连续性和差异性.因此,村域尺度社会经济数据的空间化,实质上是对传统社会经济统计数据的二次挖掘,赋予了其新的内涵.本研究中,虽然模型的普适性还有待进一步检验,但就研究区而言,较好地实现了对社会经济数据的反演,为创建区域范围内村域尺度连续的社会经济数据表面提供了支撑;同时,研究也发现,在山地丘陵区社会经济数据空间化处理过程中,建设用地、耕地、林地具有重要的社会经济指示意义,是进行社会经济数据空间化处理的关键变量,而表征地形地貌的高程、坡度指标在村域微观尺度下被剔除,没有预期的重要,从某种意义上看,这为该模型向同类区域或平原区的推广提供了依据,值得进一步深入探讨.