-
20世纪90年代以来,土地利用变化的动力机制是目前国际上全球变化研究的前沿和热点课题之一,学者们为此探索出了一些非常有效的研究方法[1-6].其中,基于经验的统计模型方法,不仅有助于从复杂的土地利用系统中分离出主要的驱动因子,确定土地利用变化与驱动因子的定量关系,而且建模过程较简单,限制条件少,因此在土地利用驱动机制研究中广泛应用.建成区面积变化驱动力分析就是土地利用驱动机制研究中的重要方面.
主成分分析在国内的土地利用变化驱动机制研究中应用较广[5-8],但因未构建定量模型,不是完整意义上的定量研究.逐步回归虽然属于定量研究,但因逐步回归存在自变量的取舍,破坏了驱动力系统的整体性,不利于系统分析,且未考虑样本(因变量)自身可能含有的粗差对参数解算的影响.
目前,我国各地对建成区面积统计在统计方法、统计口径上并未统一,即使同一地区,二者也会有变化.如2012年,重庆市建委对用地面积分类做了调整.因统计数据来源复杂,产生漏算和重复计算的可能性较大,且受统计人员的人为影响大,容易产生粗差.
本文以重庆市建成区面积变化的驱动机制分析为例,运用稳健主成分估计方法求解回归模型参数.不仅可以利用主成分消弱驱动力系统多重共线性的影响,而且可以有效抑制样本粗差对参数估计的影响,使参数估计更加稳健,回归模型更加科学、可靠,符合现代地理学研究通过不断引入现代技术和数学模型进行深层次定量研究的发展趋势.
全文HTML
-
Gauss-Markov模型见公式(1):
其中:ε~(0,σ2).
X′X所对应的特征根为λ1≥λ2≥…≥λp,(X′为矩阵X的转置矩阵)各特征根所对应的标准化的正交特征向量为a1,a2,…,ap.则式(1) 的典则形式为:
其中:
记
令
为计算方便,将Λ,α,F,A进行矩阵分块,得
因此,公式(1) 的典则形式又变为:
只保留公式(3) 中包含信息量最大的主成分项F(1)α(1),求得α(1)的最小二乘估计
而
则回归参数β的主成分估计
稳健主成分估计不仅顾及系数矩阵X的多重共线性,还要顾及y含有的粗差对β估计的影响.
根据M估计原理,公式(1) 中β的稳健估计为:
其中:P为等价权阵.
令
其特征根λ1≥λ2≥…≥λp,对应的标准正交化特征向量A=(a1,a2,…,ap).
因X呈现多重共线性,则N的特征根中λm+1≈λm+2≈…λp≈0,这表明,它们所对应的主成分对模型影响很小,可以剔除.
类似主成分估计的推导,将A,Λ分块得:
其中:
公式(1) 中β的稳健主成分估计为:
-
重庆市自1997年直辖以来,发展迅速,特别是进入新世纪以来,随着国家“西部大开发”步伐的加快,重庆市的城乡面貌和社会经济得到了加速发展.重庆市地处三峡库区,地质环境破碎,生态环境脆弱,具有“大城市、大农村”的特点.近年来,重庆市不仅是土地利用变化研究的热点地区,也是城镇化发展研究的热点地区,因此本文选择重庆市作为研究区.
驱动建城区面积变化的动因很多,不仅有社会的、自然的因素,还有经济的、人文的等各方面的因素.土地利用变化驱动机制模型研究中,根据地球系统科学理论优选对其有重要影响的驱动力因子作为自变量,构成动力系统.自变量太多,不仅容易导致过度参数化,而且因为自变量之间的耦合关联,使分析者难以抓住关键要素,从而降低了驱动机制分析的针对性和有效性.因而,为减少驱动力之间的“相互驱动”和“层层驱动”,驱动力指标选取本着有代表性、权威、可解释、独立的原则,参考其他研究成果[7, 9-12],优选了总户数X1(万户)对应人口因素;固定资产投资额X3(亿元)、国内生产总值X4(亿元)、城镇居民人均可支配收入X5(元)对应经济发展因素.为研究政策因素,尤其是户籍政策对建成区面积变化的推动作用,优选了统计方法、统计口径保持较为一致,数据权威性较高的户籍非农人口X2(万人),与上述4个指标共同构成驱动力系统.建成区面积Y(平方公里)作为因变量(样本).所有数据均来自2002年-2012年《重庆市统计年鉴》.
-
根据上述分析,建立影响重庆市建成区面积变化的回归模型:
为削弱变量数据数量级差异太大对模型求解的影响,提高驱动机制分析的可靠性,分别将变量Yi和X=(Xij)11×5标准化:
其中:
用标准化变量表示的回归模型为:
以下对参数的求解,就是指对公式(11) 中β1*,β2*,β3*,β4*,β5*这5个参数的求解.
对于式(11),
条件数
按照累积贡献率
确定所选主成分个数为2.
稳健主成分估计等价权采用下列函数:
式中:P为先验权;u为标准化残差;k0=1.5,k1=2.5.
不加粗差时,分别应用普通最小二乘方法、主成分方法和稳健主成分方法求解式(11) 的回归参数,数值如表 1所示.
回归参数具有“权重”意义:参数值为正,表明该参数所对应的自变量与因变量同向变化,即“正相关”;参数为负,表明该参数所对应的自变量与因变量反向变化,即“负相关”.参数绝对值的大小表示自变量对因变量的作用强度:绝对值越大,表示该参数所对应的自变量对因变量的影响作用相对越强.
由表 1可知,① 在因变量不含有粗差时,运用普通最小二乘方法求解回归参数,对应于固定资产投资额、国内生产总值和城镇居民人均可支配收入的回归参数都出现了负值,这与三者随建成区面积同向扩张的客观事实明显不符,严重违背实际变化规律.因此,当系统存在较强的多重共线性时,应用普通最小二乘方法求解回归参数不可行. ② 在因变量不含有粗差时,运用主成分方法和稳健主成分方法所求各回归参数均为正值,表明各驱动因子与建成区面积同向变化,符合客观事实. 2种方法所求参数数值基本一致,最大相对误差为
$\frac{{\left| {0.336\;0 - 0.326\;7} \right|}}{{0.336\quad 0}} = 0.028$ 参数的2范数仅相差0.003.因此在样本没有粗差时,2个模型的精度没有区别.为验证稳健主成分方法的抗差性,在原始数据因变量Y中加入粗差,即对2002年因变量加900 km2(即Δ2=900),2007年因变量加900 km2(即Δ7=900),2002年和2007年因变量同时加900 km2(即Δ2=Δ7=900)),分别用主成分方法和稳健主成分方法求解回归参数.为观察求解参数的稳健性,计算它们与表 1中的主成分方法所求参数的差的平方和的开方D,D值越小,说明参数整体越稳健.数据计算结果如表 2所示.
表 2显示:
1) 当Δ2=900时:
主成分方法求解X5*的回归参数为-0.334 9,表明人均可支配收入与建成区面积反向变化,与二者同向变化的客观事实不符,且参数的相对误差为
$\frac{{\left| {0.336\;0 - 0.334\;9} \right|}}{{0.336\quad 0}} = 1.997$ ; 而稳健主成分方法求解X5*的回归参数为0.214 7,相对误差为$\frac{{\left| {0.336\;0 - 0.214\;7} \right|}}{{0.336\quad 0}} = 0.361\;0$ ,二者精度相差5.53倍.稳健主成分方法所求各回归参数均为正值,参数从大到小的排列次序为
$\tilde{\beta }$ R5*,$\tilde{\beta }$ R1*,$\tilde{\beta }$ R3*,$\tilde{\beta }$ R4*,$\tilde{\beta }$ R2*,与表 1中不含粗差时主成分方法求解的参数大小排列规律完全相同.主成分方法D=0.855 7,是稳健主成分方法D=0.144 6的5.92倍.
2) 当Δ7=900时:
主成分方法中,
$\tilde{\beta }$ 2*=-0.744 0,表明非农人口数与建成区面积反向变化,相对误差为$\frac{{\left| { - 0.774\;0 - 0.061\;3} \right|}}{{0.061\;3}} = 13.137$ .而稳健主成分方法中$\tilde{\beta }$ R2*=-0.018 7,相对误差为$\frac{{\left| { - 0.018\;7 - 0.061\;3} \right|}}{{0.061\;3}} = 1.30\;5$ ,可见二者的相对精度相差10倍之多;主成分方法D=1.080 7,是稳健主成分方法D=0.147 0的7.35倍.3) 当Δ2=Δ7=900时:
主成分方法中,
$\tilde{\beta }$ 2*=-0.340 2,相对误差为$\frac{{\left| { - 0.340\;2 - 0.061\;3} \right|}}{{0.061\;3}} = 6.549\;8$ ;而稳健主成分方法中,$\tilde{\beta }$ R2*=-0.206 1,其相对误差为$\frac{{\left| { - 0.206\;1 - 0.061\;3} \right|}}{{0.061\;3}} = 4.362\;2$ ,二者的相对精度相差1.5倍;主成分方法D=0.487 6,是稳健主成分方法D=0.318 7的1.53倍.
4) 等价权是决定稳健估计果的关键,由于2002年和2007年样本所含的多余观测分量不同,所以当两者加粗差时,稳健估计的效果会有所不同.样本所含粗差个数越少,稳健主成分方法的优越性越明显.
综合比较说明,当样本含有粗差时,稳健主成分方法与主成分方法相比较,稳健主成分方法所求参数稳健性更强,受样本粗差影响相对较小,因此所建模型解释性和整体性更强,结论更可靠.
-
土地利用是一个开放的系统,人是其中最活跃的因素,不仅是土地利用系统的组织者和参与者,也是系统输出产品的消费者.因此,人口规模是城镇土地利用规模的决定性因素.人口增长,客观上要求对工业、商业、交通、住房等生产、生活用地增加供应,推动了土地城市化进程.人口增长越快,城市面积的扩充也越快. 2001年-2011年,重庆市总户数由950.96万户迅速增长到1 205.20万户,增长了26.8%.人口的增长是建成区面积快速增加的重要驱动力.
-
社会经济的发展是土地利用结构及其演变的主要动力.重庆市自2001年至2011年11年间,社会经济得到了长足发展.在优选的5个驱动因子中,城镇居民人均可支配收入是城区面积增长的最强驱动力,人均可支配收入由2001年的6 572元迅猛增加到2011年的20 250元,增长了208%.收入的增加,使得人们对生活品质的改善需求旺盛,居民住房、文化休闲、公共事业等需求用地的增加,客观上要求城市扩展空间.此外,房产作为一种非常具有保值增值潜力的投资品,人均可支配收入的增加,意味着个人财富的增长,不仅促进了自住房和生产生活环境的改善,而且带动了房产投资,促使建成区面积不断扩大.
在2001年至2011年的11年间,重庆市全社会固定资产投资额从801.82亿元增加到7 685.87亿元,增幅高达858.55%;国内生产总值从1 976.86亿元增加至10 011.13亿元,增幅达406.41%.固定资产投资额和国内生产总值的大幅增长,促进了“大城市带动大农村”的城镇化发展战略实施,导致基础设施建设和房地产业迅速崛起,建成区面积迅速增加.
-
任何区域土地利用状态都是在特定的经济系统和政策水平下形成的.在所选的5个指标构成的动力系统中,总户数呈较强推动,而非农人口则相对弱些.一方面,非农人口的增长受户籍政策、农业农村政策影响较大.近年来,随着国家重视“三农”,有些农业人口会享受到一些补贴和收益,如三峡库区补贴,宅基地及农房、承包地的收益等,使一些人主观上不愿意放弃农村户口.另一方面,我国的户籍政策改革步伐还落后于经济发展,农业人口落户城市还存在体制机制上的诸多障碍.因此,在与总户数、固定资产投资额、国内生产总值和城镇居民人均可支配收入的对比中,非农人口的动力作用处于相对弱势.
2.1. 研究区选择与驱动变量优选
2.2. 回归参数的稳健主成分方法求解
2.3. 驱动力分析
2.3.1. 人口因素
2.3.2. 经济因素
2.3.3. 政策因素
-
按照系统科学理论,优选总户数、固定资产投资额、国内生产总值、城镇居民人均可支配收入和非农人口数构成动力系统,运用稳健主成分分析方法,建立重庆市2001年-2011年建成区面积变化的驱动模型.当建成区面积含有粗差时,稳健主成分方法得出的驱动规律较主成分方法得出的驱动规律更科学、客观,说明稳健主成分方法对粗差有一定的抑制作用,是一种非常有效的系统分析方法.当建成区面积不含有粗差时,稳健主成分与主成分构建的模型精度无差异.
2001年-2011年,重庆市建成区面积大幅增加.在所构成的动力系统中,驱动作用由强到弱依次为城镇居民人均可支配收入、总户数、固定资产投资额、国内生产总值、非农人口数.对于由其他指标构成的动力系统,其驱动强弱对比可能会有所不同.
可能实际观测中因变量的某些峰值并不是粗差,而正好体现的是相关变量间的某种不具有普遍代表意义的特殊规律.考虑到回归分析的目的是找出相关变量间的普遍规律,因而也将这种峰值用稳健估计方法进行处理.稳健主成分方法的抗差效果主要取决于等价权,对于不同类型的样本数据,采用哪种方式确定等价权将是下一步的研究重点.