-
大数据、云时代的到来为地理科学研究提供了新的机遇和挑战. 1999年中国科学院联合19个部委主持召开国际数字地球会议,2019年,国际数字地球学会中国国家委员会在北京召开“首届中国数字地球大会”,中国科学院地理科学与资源研究所建立了多个国家级野外观测研究网络和科学数据中心[1]. GoodChild[2]于2012年发表论文“Next-generation Digital Earth”,程昌秀等[3]指出大数据对地理学的研究方法、研究进展提供了新的挑战和机遇,王戈飞等[4]利用相关数据对大规划、地理信息系统、地理信息产业发展等领域进行了分析研究. 综上,这些研究从某种程度上说明数据在地理科学研究领域扮演着不可或缺的角色.
全文HTML
-
数据已被广泛应用于教学科研、管理、生产生活的方方面面,科学合理地使用数据对提高科研水平、推进创新等具有重要作用. 如,在教育研究领域,张颖超[5]就大数据对高等教育发展影响进行了系统的分析;任一明等[6]指出大数据对高等教育的研究、创新、发展发挥着巨大的影响. 在哲学研究领域,黄欣荣[7]研究发现,数据将成为科学研究的新对象,大数据可能带来科学研究范式的变革,数据解释将成为科学说明的新模式;董艳丽[8]对大数据所涉及的哲学内涵进行挖掘. 在经济学领域,麦肯锡研究机构肯定了大数据对于提升各个商业领域价值创造力的巨大潜能,世界经济论坛甚至将大数据定义为类似于黄金或货币一样的新经济资产,李国杰等[9]指出,在未来科技及经济社会发展进程中,大数据将扮演重要角色. 在地理学科领域,杨振山等[10]与甄峰等[11]指出,大数据的发展对完善人文—经济地理学学科思维和研究方法将起到积极的推动作用;马振刚等[12]研究了自然地理学的大数据源及相关变革;裴韬等[13]揭示了地理大数据的本质特点,对地理大数据挖掘方法进行了分类.
综上研究大多是从如何利用数据以及如何应对大数据对学科发展带来的机遇、挑战等方面进行研究,而基于文献内容计量学分析视角,系统梳理某一学科领域内数据来源的识别、归类及应用特征的文献较少. 基于此,本文采用文献分析计量与编码相结合的方法对地理学研究领域中的数据名称进行识别、分类,探索这些数据获取方式以及在地理学科领域中的应用特征,以期为地理学学科发展及相关研究提供参考.
-
本文选取同时被中国社会科学引文索引(CSSCI)、中国科学引文数据库(CSCD)收录,且具有较好代表性的《地理学报》《地理科学》《地理研究》《地理科学进展》和《经济地理》5种期刊2000年以来发表的所有论文为样本,采用人工编码与数据抽取相结合的方法对这些论文所使用的数据进行标识、分类,探究地理学科领域数据获取方式及应用特征.
在中国知网(CNKI)检索获取上文所述5种地理学核心期刊刊载的中文文献的题录信息,包括题名、作者、关键词、摘要、发表时间等,采用高级检索方式进行检索,检索式为:文献来源= (地理学报+ 地理科学+ 地理研究+ 地理科学进展+ 经济地理);检索时间跨度为2000年1月1日至2021年12月31日. 共获取文献24 974篇,剔除图书推介、刊物简介、会议纪要、讲话、通知、贺词等文章,共获取可编码文献24 903篇.
-
第一步,因文献题录信息总数据量较大,由2名编码人员在充分熟悉编码方案后,采用人工编码和自动抽取相结合的方式对数据名称进行编码,在参考地理科学研究常用数据相关文献的基础上[14-16],对所获取的题录信息按照编码方案进行识别、统计分析,具体的编码方案见表 1至表 3,主要处理步骤如下.
由2名编码人员对选取的《地理学报》所载的6 037篇论文进行人工编码,通过进一步讨论形成数据名称词集合,编码完成后对编码结果进行信度检验,使用编码交互判别信度K计算编码的一致性[17].
根据公式
$ T_{a b}=\frac{2 N_{a b}}{M_a+M_b} $ 得到2位编码者之间的平均相互同意度,其中Nab表示2名编码人员结果一致的编码数量;Ma和Mb分别表示a,b2名编码人员各自的编码数量;利用公式
$ K=\frac{n \times T}{1+(n-1) \times T}$ 计算编码交互判别信度,其中n表示编码人员数量;T表示平均相互同意度,最终得到编码交互判别信度K=0.82. 编码人员对相同内容判断的一致性越高,内容分析的可信度也越高[18]. K值高于0.8表明2位编码人员的编码结果一致性较好.第二步,使用Visual Basic对数据名称词集合与题录信息内容进行自动识别匹配,若数据名称集合中的词与题名、关键词及摘要等内容的词实现完全匹配,则对该文献自动编码,形成自动编码的数据名称数据集.
第三步,对于利用数据名称集合无法自动识别编码的文献,采用人工编码的方式完成文献的编码. 最后,对每类数据名称的出现频次进行统计分析.
2.1. 数据采集
2.2. 数据处理
-
人文地理类数据来源主要类别有经济地理、人口地理、娱乐地理、城市地理、交通地理. 统计发现,出现频次前10的数据名称有就业类数据、产业企业类数据、贸易数据、交易消费数据、人口统计类数据、旅游数据、房价地价类数据、快递物流数据、客运货运数据、经济状态类统计数据. 从以上统计数据及表 1可知,人文地理类数据品目种类多、来源丰富,且与人类生产生活密切相关.
-
自然地理学数据来源类别主要有大气候、地形地貌、水文、植物地理,由于自然地理学本身更加注重自然地理环境的组成、形成发展及空间分异规律研究,出现频次较高的数据有温度气温类数据、气候气象类数据、水汽温度类数据、地表河流地形类数据、水土水沙类数据、水质水位数据、降水降雨类数据、森林植被类数据. 从以上统计数据及表 2来看,自然地理环境要素与人类活动的关系越密切,就越容易受到关注,相关的研究及数据也会越多,如气温温度、气候气象、水位水质等.
-
对识别出的地理信息科学数据名称进行统计分析发现,其数据来源主要类别有环境地理、农业地理、人地关系、能源、卫星遥感、位置定位等,出现频次靠前的数据名称有空气质量类数据、气体排放类数据、农作物类数据、土地利用变更类数据、能源资源类数据、卫星遥感类数据、位置定位类数据. 从以上统计数据及表 3来看,地理信息科学数据品目种类多,与人类生产、生活相关的数据出现频次较高,数据获取的方式有卫星遥感、图像摄像、数据库、网络平台.
-
对样本期刊所刊载的789种数据类型名称在论文中的分布情况进行统计发现,约33.2%的数据类型仅被1篇论文使用,30.1%数据类型被5篇或5篇以上的论文使用. 依据使用频次统计,地理学使用频次靠前的数据名称有面板数据、遥感影像、调查数据、TM数据、空间数据、遥感数据、Landsat数据、NDVI数据、人口普查数据、MODIS数据、观测数据、土地利用数据、历史文献数据、POI数据、ETM数据、气象数据、影像数据、降水数据、企业数据、DEM数据、人口数据、统计年鉴、实测数据、监测数据、气温资料、SPOT数据、百度数据、夜间灯光数据.
-
利用CiteSpace软件对地理学高频使用数据的文献研究主题进行聚类分析发现,地理学高频使用数据的文献研究主题主要聚焦于土地利用、时空分异、青藏高原、长江经济带、房价、经济贸易、社会经济、旅游、交通出行、快递物流、人口地理、能源资源、位置定位、气候气象、气温降水等.
-
地理科学研究常用的国内外商业数据库有CNKI、万方、维普、CSSCI、WOS、SSCI、JCR. 有学者根据研究需要,自建某专题类数据库/集,如中国科学院张生瑞等[19]构建了全国跨省界自然地理实体地名数据库,中国旅游研究院蒋依依等[20]构建了2001-2015年中国出境游客与目的地入境游客规模数据库.
-
官方网站数据主要为政府各职能部门、各行业类官方统计数据,常见的有住房和城乡建设部、农业农村部、自然资源部、海关、气象局、企业类官方数据. 例如,选取国家气象信息中心发布的数据分析中国常年气候季节空间变化[21],利用住房和城乡建设部发布的数据分析中国小城镇镇区土地利用结构特征[22],利用中国能源统计年鉴发布的数据构建能源消耗空间格局预测模型[23].
-
常见的企业平台有百度、腾讯、美团、饿了么、中国移动、高德地图、携程. 刘海洋等[24]基于腾讯人口迁徙大数据研究了黄河流域城市联系网络格局;彭诗尧等[25]利用百度地图POI数据分析轨道交通客流的空间特征;丁亮等[26]基于移动通信用户的个体移动轨迹数据,验证多中心城市引力模型.
-
调研实测是获取地理学数据最重要的基本方法,可直接收集第一手资料. 例如,宋昊泽等[27]根据野外实测数据和小型无人机所摄地景影像,采用地形数字化方法提取地貌原始数据,分析描述罗布泊地区雅丹形态特征及演化过程;李佳等[28]通过实地调查和访谈获取数据分析了旅游社会—生态系统的内部运行机制;王泽东等[29]基于山东省124个高校校区的调研数据,对高等教育用地的时空演化特征进行了系统阐述.
-
地域性、空间性是地理学科重要特征,卫星遥感技术是获取该类数据的重要方式. 例如,刘纪远等[30]基于遥感数据分析了中国城乡建设用地扩张时空特征;范科科等[31]基于卫星遥感数据对青藏高原土壤湿度数据进行了评估;刘睿等[32]基于环境减灾卫星CCD数据对呼伦贝尔地区植被分类进行了研究.
-
对识别出的数据名称进行统计发现,地理信息科学数据的种类较多,尤以人文地理类数据种类最丰富、数量最多. 人文地理、地理信息科学类数据与其他学科的交叉性、融合性更强,其所涉及的学科面更广、更丰富.
-
数据信息的获取方式及载体形式更加多样化、现代化. 统计发现,地理类数据主要获取方式有调研实测、官方网站、商业数据库、卫星遥感、手机APP、企业平台等. 近年,通过手机APP、卫星遥感、大数据等现代化手段获取数据的方式越来越多. 数据的载体形式主要有图书、期刊论文、学位论文、会议论文、图片影像、地图、古籍历史资料、报纸报告、专利、统计年鉴、遥感软件等,近年来,数据载体类型有由纸本化向电子化、数字化转变的趋势.
-
对识别出的数据统计分析发现,数据内容与人类生产、生活密切相关,如天气预报(气候气象)、吃喝欢乐(粮食、旅游等)、衣食住行(房价、交通等)、医疗教育等,这些事物的空间性、地域性都是地理学科研究领域涉及的范围,也是由地理学学科特性的综合性、社会性所决定.
-
时代性特征明显. 无论是数据内容的研究主题,还是数据获取方式、载体形式都随着时代的进步而发展,体现出鲜明的时代性特征. 数据研究主题与时俱进,如快递物流、空气质量、环境污染、城市房价、交通出行、POI等;数据获取方式、载体形式亦是如此,数据获取远程化、现代化,数据载体电子化、现代化,如无人机、遥感卫星、GIS软件、电子书刊等.
3.1. 数据识别及归类
3.1.1. 人文地理学
3.1.2. 自然地理学
3.1.3. 地理信息科学及其他
3.2. 高频使用数据及聚焦主题
3.2.1. 高频使用数据类型
3.2.2. 高频使用数据聚焦主题
3.3. 数据获取方式
3.3.1. WOS与CNKI等数据库
3.3.2. 政府职能部门官方网站
3.3.3. 百度和腾讯等企业平台
3.3.4. 调研实测
3.3.5. 卫星遥感
3.4. 数据特征分析
3.4.1. 人文地理类数据更丰富
3.4.2. 数据获取方式及载体形式趋向多样化、现代化
3.4.3. 与人类社会活动密切相关
3.4.4. 时代性特征明显
-
本文研究发现,地理学研究高频使用的数据有经济人口数据、遥感影像、空间数据、调查数据、城市及旅游类数据等;高频数据文献聚焦主题于时空分异、经济贸易、青藏高原、长江经济带、旅游交通、位置定位、气温降水等;数据获取方式主要有数据库、官方数据网站、企业、调研实测和卫星遥感;数据特征为人文地理类数据更丰富,数据获取方式及载体形式现代化,数据内容与人类社会活动密切相关,时代性特征明显.
对地理学研究领域数据的识别及应用特征的分析,既有利于结合社会实践,解决实际问题,也利于推动地理学理论与技术、方法的不断创新,对地理学研究具有重要的现实意义.