留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

基于NPP-VIIRS的福建省人口网格化方法改进对比分析

上一篇

下一篇

黄耀裔, 陈文成, 陈显银, 等. 基于NPP-VIIRS的福建省人口网格化方法改进对比分析[J]. 西南师范大学学报(自然科学版), 2023, 48(3): 94-102. doi: 10.13718/j.cnki.xsxb.2023.03.013
引用本文: 黄耀裔, 陈文成, 陈显银, 等. 基于NPP-VIIRS的福建省人口网格化方法改进对比分析[J]. 西南师范大学学报(自然科学版), 2023, 48(3): 94-102. doi: 10.13718/j.cnki.xsxb.2023.03.013
HUANG Yaoyi, CHEN Wencheng, CHEN Xianyin, et al. Comparative Analysis of Improved Population Gridding Method in Fujian Province Based on NPP-VIIRS Data[J]. Journal of Southwest China Normal University(Natural Science Edition), 2023, 48(3): 94-102. doi: 10.13718/j.cnki.xsxb.2023.03.013
Citation: HUANG Yaoyi, CHEN Wencheng, CHEN Xianyin, et al. Comparative Analysis of Improved Population Gridding Method in Fujian Province Based on NPP-VIIRS Data[J]. Journal of Southwest China Normal University(Natural Science Edition), 2023, 48(3): 94-102. doi: 10.13718/j.cnki.xsxb.2023.03.013

基于NPP-VIIRS的福建省人口网格化方法改进对比分析

  • 基金项目: 福建省社会科学基金项目(FJ2021B072);福建省科技项目(2021J01974);福建省中青年教师教育科研项目(JAT200543,JAT200549)
详细信息
    作者简介:

    黄耀裔,高级实验师,主要从事人口与地理信息系统应用的研究 .

    通讯作者: 赵益民,副教授
  • 中图分类号: K910

Comparative Analysis of Improved Population Gridding Method in Fujian Province Based on NPP-VIIRS Data

  • 摘要: 基于夜间灯光人口校正指数(NANI)、城市夜间灯光校正指数(VANUI)、人居指数(HSI)3种指数修正NPP-VIIRS夜间灯光过饱和与溢出效应的修正模型,直接面向网格,采用按县域中有人口分布的网格数加权,使用最小二乘法回归对人口空间网格化,并随机抽取一定比例网格化后的乡镇域样本加以验证. 结果表明:①3种修正模型改进后的网格化系数均通过p=0.001的统计学意义检验,拟合优度增加、预测标准误差大幅降低; ② 3种修正模型的人口绝对误差(MAE)、人口纯方根误差(RMSE)、人口相对误差(MRE)值均有较大幅度降低; ③ 3种修正模型两两之间的夹角余弦系数为0.981~0.996,每个网格绝对距离为29.1~75.8人,同一性大,互证有效. 说明3种修正模型的改进既考虑了县域规模差异的影响又避免了建模过程中行政单元与网格单元的尺度变换,显著提高了人口网格化精度.
  • 加载中
  • 图 1  NPP-VIIRS夜间灯光辅助的人口网格数据流模型图

    图 2  福建省人口网格化结果

    图 3  福建省网格化剖面可视化折线图

    表 1  SPSS的回归分析的部分结果

    方法 模型:$ \stackrel{\wedge}{y}_l=f\left(x_l\right)$ 系数bl检验 模型拟合与F检验
    t .Sig Bootstrap R R2 调整R2 Se F Sig.
    WLS $ \stackrel{\wedge}{y_1}$=1 624.907·x1 627.567 0.000 0.001 0.944 0.892 0.892 34.156 393 840.028 0.000
    $ \stackrel{\wedge}{y_2}$=8 677.205·x2 539.045 0.000 0.001 0.927 0.859 0.859 39.022 290 569.784 0.000
    $ \stackrel{\wedge}{y_3}$=2 207.578·x3 629.302 0.000 0.001 0.945 0.892 0.892 34.072 396 021.086 0.000
    OLS $ \stackrel{\wedge}{y_1}$=5 957.758·x1 6.649 0.000 0.371 0.590 0.348 0.340 8 304.094 44.214 0.000
    $ \stackrel{\wedge}{y_2}$=32 715.044·x2 6.161 0.000 0.370 0.560 0.314 0.306 8 515.966 37.963 0.000
    $ \stackrel{\wedge}{y_3}$=9 219.348·x3 5.874 0.000 0.371 0.542 0.294 0.285 8 640.465 34.502 0.000
    注:①方法WLS(加权最小二乘法)为个案加权基础的加权最小二乘法,OLS(最小二乘法)未加权个案; ②Bootstrap为基于1 000样本的显著性水平(双侧).
    下载: 导出CSV

    表 2  根据随机样本验证模型外推的网格人口误差统计表

    $\hat{y}_l $ 改进后(加权个案及加权最小二乘法) 改进前(无加权个案的最小二乘法) 抽样比例/%
    MAEl/人 RMSEl/人 MREl/% MAEl/人 RMSEl/人 MREl/%
    ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j)
    $ \hat{y}_1$ 478 282 712 434 46.1 41.7 2 027 1 861 3 136 1 944 195.4 275.9 10
    397 222 671 384 47.2 42.4 1 577 1 445 2 606 2 092 187.6 276.4 15
    395 235 686 427 42.3 38.5 1 734 1 516 2 678 2 178 185.9 248.3 20
    360 228 574 357 44.2 41.0 1 606 1 463 2 697 2 046 197.3 262.6 25
    426 229 740 416 46.5 42.1 1 705 1 430 2 847 2 079 186.2 262.5 30
    435 244 731 423 46.3 41.5 1 673 1 453 2 766 2 105 178.2 246.8 40
    423 245 707 418 46.3 42.2 1 697 1 472 2 824 2 145 185.6 253.0 50
    $\hat{y}_2 $ 516 283 779 456 49.8 41.9 21 27 1 826 3 406 1 968 205.0 270.7 10
    455 251 729 424 54.1 48.0 1 534 1 312 2 844 2 286 182.5 251.1 15
    438 253 724 460 46.9 41.4 1 801 1 438 3 100 2 466 193.0 235.5 20
    408 247 635 394 50.2 44.3 1 537 1 346 2 864 2 196 188.8 241.6 25
    471 247 785 441 51.4 45.3 1 650 1 282 3 019 2 228 180.2 235.4 30
    482 265 775 450 51.3 45.1 1 645 1 332 2 973 2 279 175.2 226.2 40
    468 264 752 446 51.2 45.5 1 658 1 349 2 997 2 293 181.4 231.9 50
    $\hat{y}_3 $ 498 315 755 459 48.0 46.7 2 361 2 338 3 156 2 187 227.6 346.7 10
    396 239 688 370 47.1 45.7 2 010 1 967 2 670 2 389 239.1 376.4 15
    414 274 707 447 44.4 44.8 2 211 2 058 2 925 2 541 237.0 337.1 20
    368 258 585 362 45.2 46.4 2 049 2 004 2 764 2 397 251.8 359.7 25
    447 263 777 437 48.8 48.3 2 123 1 963 2 900 2 412 231.8 360.3 30
    449 271 757 433 47.9 46.0 2 101 1 989 2 846 2 436 223.7 337.9 40
    433 271 728 426 47.3 46.6 2 127 2 005 2 884 2 460 232.7 344.8 50
    下载: 导出CSV

    表 3  根据随机样本验证网格化结果的乡镇域人口误差统计表

    $ \stackrel{\wedge}{y_l}$ 改进后(加权个案及WLS) 改进前(无加权个案的OLS) 乡镇域个数τ/%
    MAEl/人 RMSEl/人 MREl/% MAEl/人 RMSEl/人 MREl/%
    ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j) ηl(, j)= 1 ηl(, j)= nl(, j)
    $ \stackrel{\wedge}{y}_1$ 15 132 12 699 21 056 17 978 41.7 39.7 100 017 89 411 143 565 110 194 275.9 279.3 75
    $ \stackrel{\wedge}{y}_1$ 11 539 13 625 17 401 19 578 42.4 42.2 75 199 106 894 113 940 139 905 276.4 331.0 134
    $ \stackrel{\wedge}{y}_1$ 12 636 14 848 20 312 22 850 38.5 38.1 81 473 114 614 120 089 147 494 248.3 293.8 164
    $ \stackrel{\wedge}{y}_1$ 12 259 15 629 18 046 22 475 41.0 42.1 78 586 118 020 116 384 152 329 262.6 317.8 205
    $ \stackrel{\wedge}{y}_1$ 11 510 14 063 17 279 20 285 42.1 42.6 71 759 107 268 105 500 138 815 262.5 324.6 256
    $ \stackrel{\wedge}{y}_1$ 12 421 14 814 18 291 20 958 41.5 41.7 73 883 108 003 109 480 139 869 246.8 303.8 330
    $ \stackrel{\wedge}{y}_1$ 12 916 15 489 18 881 21 709 42.2 43.1 77 429 112 094 114 373 144 550 253.0 311.8 417
    $ \stackrel{\wedge}{y}_2$ 15 207 11 632 21 959 16 781 41.9 36.3 98 153 73 349 150 842 103 333 270.7 229.2 75
    $ \stackrel{\wedge}{y}_2$ 13 058 14 813 19 516 21 701 48.0 45.9 68 303 92 993 120 322 142 098 251.1 288.0 134
    $ \stackrel{\wedge}{y}_2$ 13 582 15 074 22 060 24 323 41.4 38.6 77 274 100 556 129 282 149 054 235.5 257.8 164
    $ \stackrel{\wedge}{y}_2$ 13 262 15 859 19 536 23 407 44.3 42.7 72 321 106 141 121 693 153 702 241.6 285.8 205
    $ \stackrel{\wedge}{y}_2$ 12 395 14 370 18 359 20 943 45.3 43.5 64 365 91 992 109 640 138 293 235.4 278.4 256
    $ \stackrel{\wedge}{y}_2$ 13 498 15 341 19 623 21 997 45.1 43.2 67 705 94 350 114 940 140 743 226.2 265.4 330
    $ \stackrel{\wedge}{y}_2$ 13 912 15 743 20 149 22 407 45.5 43.8 70 981 98 042 118 905 144 082 231.9 272.7 417
    $ \stackrel{\wedge}{y}_3$ 16 934 16 743 22 139 21 710 46.7 52.3 125 683 131 849 165 379 155 163 346.7 411.9 75
    $ \stackrel{\wedge}{y}_3$ 12 422 16 198 17 467 21 422 45.7 50.2 102 399 149 702 139 141 179 281 376.4 463.6 134
    $ \stackrel{\wedge}{y}_3$ 14 704 18 821 21 502 24 950 44.8 48.2 110 593 161 532 149 050 192 124 337.1 414.1 164
    $ \stackrel{\wedge}{y}_3$ 13 881 19 380 19 584 25 982 46.4 52.2 107 650 165 179 148 023 201 911 359.7 444.8 205
    $ \stackrel{\wedge}{y}_3$ 13 200 17 934 19 217 24 607 48.3 54.3 98 517 152 871 135 324 187 470 360.3 462.7 256
    $ \stackrel{\wedge}{y}_3$ 13 778 18 141 19 475 24 203 46.0 51.0 101 148 153 162 138 280 186 001 337.9 430.8 330
    $ \stackrel{\wedge}{y}_3$ 14 252 18 973 20 096 25 242 46.6 52.8 105 521 158 340 143 458 191 799 344.8 440.4 417
    下载: 导出CSV
  • [1] 陈述彭, 陈秋晓, 周成虎. 网格地图与网格计算[J]. 测绘科学, 2002, 27(4): 1-6, 2.
    [2] 黄安, 许月卿, 孙丕苓, 等. 基于多源数据人口分布空间化研究——以河北省张家口市为例[J]. 资源科学, 2017, 39(11): 2186-2196.
    [3] 赵鑫, 宋英强, 刘轶伦, 等. 基于卫星遥感和POI数据的人口空间化研究——以广州市为例[J]. 热带地理, 2020, 40(1): 101-109.
    [4] 李翔, 陈振杰, 吴洁璇, 等. 基于夜间灯光数据和空间回归模型的城市常住人口格网化方法研究[J]. 地球信息科学学报, 2017, 19(10): 1298-1305.
    [5] 柏中强, 王卷乐, 姜浩, 等. 基于多源信息的人口分布格网化方法研究[J]. 地球信息科学学报, 2015, 17(6): 653-660.
    [6] 董南, 杨小唤, 蔡红艳. 基于居住空间属性的人口数据空间化方法研究[J]. 地理科学进展, 2016, 35(11): 1317-1328.
    [7] 林珲, 张鸿生, 林殷怡, 等. 基于城市不透水面—人口关联的粤港澳大湾区人口密度时空分异规律与特征[J]. 地理科学进展, 2018, 37(12): 1644-1652.
    [8] 谭敏, 刘凯, 柳林, 等. 基于随机森林模型的珠江三角洲30 m格网人口空间化[J]. 地理科学进展, 2017, 36(10): 1304-1312.
    [9] QINGLING, ZHANG, . The Vegetation Adjusted NTL Urban Index: a New Approach to Reduce Saturation and Increase Variation in Nighttime Luminosity [J]. Remote Sensing of Environment, 2013, 129: 32-41.
    [10] LIU H Q, HUETE A. A Feedback Based Modification of the NDVI to Minimize Canopy Background and Atmospheric Noise [J]. IEEE Transactions on Geoscience and Remote Sensing, 1995, 33(2): 457-465.
    [11] LU D S, WENG Q H, LI G Y. Residential Population Estimation Using a Remote Sensing Derived Impervious Surface Approach [J]. International Journal of Remote Sensing, 2006, 27(16): 3553-3570.
    [12] 胡为安, 刘传立, 詹淇雯. 中国区域NPP-VⅡRS年度夜间灯光数据的合成方法与对比验证[J]. 桂林理工大学学报, 2021, 41(1): 141-148.
    [13] 赵真, 徐柱, 侯剑. 地理加权回归在人口空间分布研究中的应用[J]. 遥感信息, 2018, 33(4): 128-134.
    [14] 王珂靖, 蔡红艳, 杨小唤. 多元统计回归及地理加权回归方法在多尺度人口空间化研究中的应用[J]. 地理科学进展, 2016, 35(12): 1494-1505.
  • 加载中
图( 3) 表( 3)
计量
  • 文章访问数:  650
  • HTML全文浏览数:  650
  • PDF下载数:  119
  • 施引文献:  0
出版历程
  • 收稿日期:  2022-11-07
  • 刊出日期:  2023-03-20

基于NPP-VIIRS的福建省人口网格化方法改进对比分析

    通讯作者: 赵益民,副教授
    作者简介: 黄耀裔,高级实验师,主要从事人口与地理信息系统应用的研究
  • 泉州师范学院 资源与环境科学学院/农村环境整治与废弃物资源化福建省高校重点实验室,福建 泉州 362000
基金项目:  福建省社会科学基金项目(FJ2021B072);福建省科技项目(2021J01974);福建省中青年教师教育科研项目(JAT200543,JAT200549)

摘要: 基于夜间灯光人口校正指数(NANI)、城市夜间灯光校正指数(VANUI)、人居指数(HSI)3种指数修正NPP-VIIRS夜间灯光过饱和与溢出效应的修正模型,直接面向网格,采用按县域中有人口分布的网格数加权,使用最小二乘法回归对人口空间网格化,并随机抽取一定比例网格化后的乡镇域样本加以验证. 结果表明:①3种修正模型改进后的网格化系数均通过p=0.001的统计学意义检验,拟合优度增加、预测标准误差大幅降低; ② 3种修正模型的人口绝对误差(MAE)、人口纯方根误差(RMSE)、人口相对误差(MRE)值均有较大幅度降低; ③ 3种修正模型两两之间的夹角余弦系数为0.981~0.996,每个网格绝对距离为29.1~75.8人,同一性大,互证有效. 说明3种修正模型的改进既考虑了县域规模差异的影响又避免了建模过程中行政单元与网格单元的尺度变换,显著提高了人口网格化精度.

English Abstract

  • 目前的人口普查数据主要以不同级别的行政区划为统计单元进行统计,难以与自然、人文要素相匹配,不利于多源数据间的融合分析. 人口空间网格化具有解决行政单元边界不稳定、同级规模悬殊的效果[1],使人口空间分布更接近实际,可以实现人口与社会经济、自然资源、生态环境等的有效融合[2]. 国内外学者对人口空间网格化进行了诸多研究,利用与人口相关程度高且数据来源较为容易的相关数据进行人口网格化分析成为目前的研究目标. 赵鑫等[3]基夜间灯光、土地利用等构建指标体系后采用主成分赋权法确定权重后的广州市人口网格化; 李翔等[4]基于夜间灯光数据和空间回归模型在乡镇域尺度下对上海市常住人口格网化; 柏中强等[5]基于土地利用数据、居民点信息、DEM、夜晚灯光数据等多源数据,利用多元回归方法进行人口分布格网化. 诸多文献研究多以土地利用、居民地、交通廊道、夜间灯光数据、DEM、居住建筑斑块、通信、POI等[6-8]多源辅助数据为主进行空间网格化,但多源数据存在获取难度大,获取的多源数据常常出现时间和空间尺度不一的问题.

    根据福建省乡镇域尺度的第7次人口普查统计数据以及NPP-VIIRS夜间灯光、NDVI植被指数等数据,本文利用NANI、VANUI[9]、HSI[10-11]3种灯光修正模型,采用直接面向网格的加权个案(样本加权)及加权最小二乘法(Weighted Least Squares,WLS)分别对3种修正模型的回归建模进行人口网格化,根据两两余弦相似系数、绝对距离差异系数等同一性指标互证模型合理性,并随机抽取不同比例乡镇域尺度下的网格化结果,采用MAE,RMSE,MRE和加权MAE,RMSE,MRE验证网格化精度.

  • ①福建省行政区划数据:源于福建省1∶20万比例尺的栅格地图经几何校正后投影为UTM后的矢量化数据(包含县域、乡镇域等面状数据). ②网格数据:采用GIS软件“渔网”功能构建的1 km×1 km网格,与福建省区划数据相交叠加分析得到全省1 km×1 km基准网格. ③人口统计数据:福建省第7次人口普查的常住人口统计数据,往上汇总分别作为乡镇域、县域尺度的矢量数据属性值. ④NPP-VIIRS夜间灯光数据:利用2020年12个月的NPP-VIIRS月份数据合成为年均数据[12]. ⑤NDVI植被指数数据:利用2020年12个月的NDVI月份数据经算术平均合成为年均数据.

  • NPP-VIIRS、NDVI数据采用最邻近法设置为$1 \mathrm{~km} \times 1 \mathrm{~km}$尺度像元后, 将夜间灯光的DN值、NDVI的DN值分别转点后, 通过空间叠加分析分别赋值基准网格. 为便于NPP-VIIRS灯光修正数据与人口建模, 将最大值规范化变换后的变量记为$x_k \cdot x_k=d n_k / n t l_{\max }, x_k \in[0, 1]$, 当$x_k=0$表示为无灯光, $x_k=1$表示为夜间灯光饱和.

  • 将县域用于建模与网格化,乡镇域人口数据用于模型外推与网格化结果精度验证,网格化处理流程分为4个步骤(图 1):①夜间灯光修正模型构建; ②加权个案及加权最小二乘法回归建模; ③模型外推、网格化精度验证; ④人口网格化及“零误差”优化调整.

  • 由于NDVI数据的分辨率与精度优于NPP-VIIRS数据, 二者融合可有效嵈解灯光像元饱和溢出效应, 强化夜间灯光区域的内部强度差异. 为便于表达融合后的灯光修正模型, 本文将其设为$x_l$ ($l$表示修正方法, $l=$ $1, 2, 3)$, 分别代表NANI修正模型$\left(x_1\right)$、VANUI修正模型$\left(x_2\right)$和HSI修正模型$\left(x_3\right)$, 计算方法如下.

    NANI修正模型记为x1,计算公式如下

    VANUI修正模型记为x2,计算公式如下

    HSI修正模型记为x3,计算公式如下

    式中: 下标$($, $) 中省略了网格继承的县域、乡镇域的 \operatorname{ID}$$i$$j$, 全文下标$k, (, )k, (i, )k, (, j) k$均指网格ID码等于$k$的网格, $i, j$仅为强调处在$i$县域、$j$乡镇域中. $n d v i_k$为第$k$网格的NDVI的DN值; $x_{1(, ) k}$ $=x_{1(i, )k}=x_{1(, j)k}=n a n i_k$$k$的NANI值, $x_{2(, ) k}=x_{2(i, )k}=x_{2(, j)k}=v a n u i_k$$k$的VANUI值, $x_{3(, ) k}$ $=x_{3(i, )k}=x_{3(, j)k}=h s i_k$$k$的HSI值. 当$n d v i_k <0.1$$n d v i_k>0.9$时, 为不适合居住区或无常住人口区; 当$0.1 <n d v i_k <0.9$时, 为适合居住区中; 当$x_k=0$时, 说明夜间少有人类活动, 属尚无人口居住区, 网格按$x_{l(, ) k} \neq 0$为有人网格和$x_{l(, )k}=0$为无人网格重新划分为两类.

  • 设个案$i$ (即县域) 的因变量$y_l$、自变量$x_l$、变量$n_l$的值($i$县域$y_l, x_l, n_l$的代表值, $\left.\forall i, l\right)$分别记为$p_{l(i, )}, x_{l(i, )}, n_{l(i, )} ; x_{l(i, )}, p_{(l, i, )}$代表$n_{l(i, )}$个有人网格的属性值, 根据图 1流程先确定权重.

    (1) 加权个案权重$\gamma_{l(i, )}$的确定. 个案由$n_{l(i, )}$个有人网格平均而成, 顾及$n_{l(i, )}$县域人口规模差异在建模中的作用, 回归分析时将$n_{l(i, )}$作为$\gamma_{l(i, )}$, 即取$\gamma_{l(i, )}=n_{l(i, )}$进行$x_{l(i, )}$$p_{l(i, )}$, 加权.

    (2) 加权最小二乘法(WLS) 权重$\beta_{l(i, )}$的确定. 由于加权个案可能导致异方差, 当$n_{l(i, )}$值越大, 则$x_{l(i, )}, p_{l(i, )}$, 的代表性越好、可靠性越大、精确性越高、对同方差贡献越大; 反之越小, 则$\beta_{l(i, )}=$ $n_{l(i, )} / \sum n_{l(i, )}$.

    再以$x_{l(i, )}, p_{l(i, )}$分别为自变量和因变量及以$\gamma_{l(i, )}, \beta_{l(i, )}$分别为加权个案、WLS的权重, 在网格中通过加权个案结合加权最小二乘法的回归分析, 以$n_{1, i}$为权重的$x_{l(i, )}$ 加权平均值与全省有人网格$x_{l(i, ) k}$的平均值相等, $p_{l(i, )}$的加权平均值分别与全省有人网格$p_{l(i, ) k}$及其预测值$\hat{y}_{l(i, ) k}$的平均值均相等, 即为无偏, 而$x_{l(i, ) k}, p_{l(i, ) k}$则分布在临近其平均值两侧, $p_{l(i, ) k}$预测值$\hat{y}_{l(i, ) k}$精度较高、可靠性较大, 见公式(4). 考虑到$x_{l(, ) k}=0$$y_{l(, ) k}=0$, 处理过程不勾选“在等式中包含常量”复选框.

    式中:bl为回归系数,表示网格xl值增/减1个单位后其yl值随之增/减bl个单位; xl为因变量、$\hat{y}_l $为因变量的回归值,分别表示网格中的xl值的人口预测值/回归值.

  • 根据不同比例随机抽取乡镇域样本, 从不同尺度对模型进行验证, 预测乡镇人口外推, 预测风格人口网格化. 随机抽样派生乡镇$a$ : (1) $a$与网格$b$相交得$c$, 网格, $c$, 属性统计得到$n_{l(, j)}$, 及有人网格$x_l$平均值$x_{l(, j)}\left(x_{l(, j)}=\sum x_{l(, j) k} / n_{l(, j)}\right), x_{l(, j)}$代人式(4) 计算得$\hat{y}_{l(, j)}\left(\hat{y}_{l(, j)}=b_l \cdot x_{l(, j)}外推于乡镇域)\right.$, 根据$n_{l(, j)}$计算$p_{l(, j)}\left(p_{l(, j)}=\sum p_{l(, j) k} / n_{l(, j)}=P_{(, j)} / n_{l(, j)}, p_{l(, j) k}\right.$$j$的第$k$网格人口); (2) $a$与经网格$b$属性$x_l$代人公式(4) 计算派生的网格$c$相交得$d'$, 网格, $d'$, 属性统计得$\hat{Y}_{l(, j)}, \hat{Y}_{l(, j)}=\sum \hat{y}_{l(, j) k}, \hat{y}_{l(, j) k}=b_l$ - $x_{(1, j)k }$应用于网格化. 得到数据后代人下式验证精度.

    式中:MAElRMSElMRElxl的人口预测误差,分别表示网格或乡镇域尺度人口平均或加权平均的绝对误差、方根误差、相对误差.

  • 将网格$b$属性$x_l$代人公式(4) 派生的网格$c$, 即网格$b$的属性$x_l$的第$k$网格值$x_{l( , ) k}$代人公式(4) 得$\hat{y}_{l(, ) k}=b_l \cdot x_{l(, ) k}(\forall k)$赋值给新建属性$\hat{y}_{l(, )}, \hat{y}_{l(, )}$为上节随机抽样验证的初步网格化值. 对于回归分析, 不管个案与最小二乘法加权与否都是全局的, 都忽略了空间异质性、非平稳性, 而公式(4) 的回归系数是全省各县域共有平均值. 有学者[13-14]提出通过地理回归来解决空间异质性、非平稳性问题, 但不可否认存在一定尺度的局域稳定性, 与建模数据的空间尺度相对应, 设在县域内具同质性、稳定性, 因此根据$i$县域的自变量值$x_{l(i, )}$回代至公式(4) 中得的回归值$\hat{y}_{l(i, )}\left(\hat{y}_{l(i, )}=b_l \cdot x_{l(i, )}\right)$$p_{l(i, )}$的不一致, 通过对每个县域确定一个回归的调节系数使$p_{l(i, )}$的回归值$\hat{y}_{l(i, )}$$p_{l(i, )}$相等优化调节$\hat{y}_{l(i, ) k}$, 使其达到全省、县域人口零误差调整. 公式为

    式中: $p_{l(i, )}, y_{l(, )}, b_l, x_{l(, ) k}, \hat{y}_{l(, ) k}$与公式(4) 相同; $\xi_{l(i, )}$$i$县域中回归系数的调节系数; $y_{l(, ) k}$$\hat{y}_{l(, ) k}$的优化值.

    引入聚类统计量作为3种修正指数模型的人口网格化结果数据集之间的同一性指标交互验证,如下:

    式中: $l, h$这2种不同灯光修正模型$x_l, x_h ; y_{l(, ) k}, y_{h(, ) k}$分别为与$x_l, x_h$对应的网格$e$的第$k$网格的人口; $m$为全省全部网格的个数; $\theta_{l, h}$为余弦相似系数(其值越接近1则越相似); $d_{l, h}$为平均绝对距离(其值越大差异越大、反之趋向同一).

  • 根据图 1的处理流程进行灯光像元饱和与溢出效应修正等处理后,分别进行有加权个案的WLS(改进后)与个案无加权的OLS(改进前)回归分析建模,结果见表 1所示.

    表 1可知:①在F检验中,改进后的F值与第2自由度远大于改进前,均通过了p=0.001的有统计学意义的检验; ②回归系数blt检验在p=0.001有统计学意义下均通过线性假设的有统计学意义检验; ③相关系数R,从改进前的0.542~0.590增至改进后的0.927~0.945,趋于1,相关性明显增大. ④模型的决定系数R2,整后为0.859~0.892,较改进前增加了2.5倍,拟合精度更高; ⑤反映模型实用价值的估计/预测标准误差Se,改进后减少210倍,精度得到提高,代表性的增强有统计学意义.

    综上,3种不同方法灯光修正模型都通过了有统计学意义的检验,说明改进后比改进前效果更好.

  • 按比例随机抽取的不同容量乡镇域样本验证模型外推于乡镇域与应用于网格化的结果见表 2表 3. 由表 2可知:①网格人口绝对误差(MAE/人). 对于不同灯光修正模型xl,改进后MAE介于360~516人,不同xl没有明显差别,但都明显比改进前缩小,改进效果更有统计学意义; ②网格人口均方根误差(RMSE/人):与MAE类似,改进后的平均与加权平均分别比改进前缩小3.7~4.7倍、4.3~6.6倍,改进效果有统计学意义; ③网格人口相对误差(MRE/%):改进后分别比改进前缩小3.4~5.6倍、5.0~8.2倍,改进效果有统计学意义.

    综上,改进后MAERMSEMRE都小于改进前,通过了模型外推与改进方法效果的验证.

    表 3可知:①乡镇域人口绝对误差(MAE/人). 3种修正模型改进后的乡镇域MAE无明显差异,分别比改进前减少5.0~8.2倍、6.2~9.2倍,改进后明显更优; ②乡镇域人口均方根误差(RMSE/人). 改进后的平均与加权平均RMSE比改进前分别减少27.9~38.0倍与25.7~35.0倍、比改进前分别减少5.9~8.0倍与6.1~8.4倍,明显优于改进前; ③乡镇域人口相对误差(MRE/%). x1模型改进后的平均与加权平均MRE分别比改进前减少5.9~66倍与7.0~7.8倍,明显优于改进前; x2模型改进后的平均MRE只有1件样本大于46.3,其余6件中有3件小于44.62,加权平均的除1件为46.3外其他6件均小于44.62,而且改进后比改进前至减少5.0倍多,改进后优于改进前并介于x1x3模型改进后; x3模型改进后的平均与加权平均MRE分别较改进前减少了7.3~8.2倍与7.9~9.2倍,改进后优于改进前. 综上可见在MAERMSEMRE这三方面都极其明显比改进前优,且改进模型通过了网格化验证.

  • 根据公式(8)-(9)对县域内人口网格化“零误差”调整,最终空间网格化结果见图 2-a2-b所示. 由图 2可知,Y1Y2具有高度相似的人口空间分布特征,均呈现网格人口(密度)空间分异,有统计学意义,总体上东部人口相对稠密而西部相对稀疏,并呈NE向为主与NW向为次的带状、串珠状分布,二者组合呈现为不甚规则的网状,交叉处为局域人口密集中心,其中全省的人口高值区、中心分布于闽东南沿海的福州市区、泉州市区、厦门市区等地. 其次,利用与x1x2x3对应的人口网格化结果绘制基于NANI模型(Y1)、VANUI模型(Y2)、HSI模型(Y3)剖面可视化折线图,见图 3-abc图 3图 2-b横穿厦门市A1-A2、福州市B1-B2、三明市C1-C2城市中心区的网格人口(密度)表面的剖面,从中可见Y1Y2Y3的网格人口(密度)都是从城市中心到郊区、远郊从高值变为低值再逐渐过渡为0,与实际的人口空间分布规律相吻合,各市的Y1Y2Y3网格人口(密度)变化曲线不仅总体形态相似,而且剖面上相邻网格的人口增减趋势也完全一致.

    $Y_1, Y_2, Y_3$$\hat{y}_{l(i, ) k}(l=1, 2, 3 ; \forall i, k)$代人公式(10)计算余弦系数, $\theta_{1, 2}=0.988, \theta_{1, 3}=0.996, \theta_{2, 3}=$ 0. 981, 3种模型的余弦系数均接近于1, 可见$Y_1, Y_2, Y_3$两两间相似性非常大; 代人公式(11) 得平均绝对距离$d_{1, 2}=57.6, d_{1, 3}=29.1, d_{2, 3}=75.8, Y_1, Y_2, Y_3$两两间差异性小、同一性大.

    综上,从综合相似性、差异性两方面可以说明Y1Y2Y3趋于同一,并从图 2-a图 2-b图 3-a图 3-b图 3-c能相互印证,说明3种不同灯光修正模型的人口空间网格化结果可以互证.

  • 以NANI,VANUI,HSI 3种指数像元饱和与溢出效应修正后的模型的灯光强度为自变量,分别构建人口网格化回归模型,考察改进后与改进前的各项相关指标差异,发现改进后的加权个案及WLS建模与改进前的个案无加权的WLS建模入选模型模糊了方法改进效果,解决了人口统计单元与网格间尺度差异、统计单元间规模差异等可变面元问题,证实了改进效果的有效性,拟合优度增大了2.5倍多,预测标准误差缩小了210多倍,乡镇域随机样本的外推与网格化验证的网格人口、乡镇域人口的MAERMSEMRE和加权MAERMSEMRE分别缩小了3.4~8.2倍与5.0~9.2倍、3.7~6.6倍与5.9~8.4倍、3.4~8.2倍与5.0~9.2倍,提高了人口网格化精度.

    3种修正模型彼此间余弦系数$\theta_{1, 2}=0.988, \theta_{1, 3}=0.996, \theta_{2, 3}=0.981$, 均接近1, 平均绝对距离$d_{1, 2}=$ $57.6, d_{1, 3}=29.1, d_{2, 3}=75.8$, 两两间差异性小、同一性大, 说明不同灯光修正模型的人口网格化结果可以互证.

    改进方法以相关程度高的指标网格化,降低了多源数据时间和空间尺度不一和处理难度,其统计单元间、统计单元与网格间空间规模差异的方法也适用于GDP等社会经济统计数据的网格化/空间化. 此外,改进方法的加权个案等方法在时空数据(截面数据、面板数据)的一些分析方法中,也可以借鉴参考.

参考文献 (14)

目录

/

返回文章
返回