大空间矢量数据管理研究综述
姚晓创 和李国庆
中国科学院遥感与数字地球研究所,北京
摘要
高精度、广覆盖的空间矢量数据在全球范围内爆炸式增长,如土地覆盖、社交媒体等数据集,这为提升国家宏观决策、社会监督、公共服务和应急能力提供了良好机遇。同时,这也给海量空间矢量数据的管理技术带来了巨大的挑战。近年来,学术界和产业界都提出并开发了大量新的概念、并行算法、处理工具、平台和应用来提高BSVD的价值。为了更好地理解BSVD并有效地利用其价值,本文对BSVD数据管理领域的最新研究和研究工作进行了综述。本文根据大空间矢量数据管理的不同信息化技术水平,从三个方面对这一课题进行了探讨和详细阐述。它旨在帮助感兴趣的读者了解最新的研究进展,并根据他们的系统架构选择最合适的大数据技术和方法。为了更全面地支持它们,首先,我们从众多学者那里发现了关于地理信息系统的新概念和新思想,聚焦于大数据时代的BSVD范围。然后,系统地总结了最新发表的文献,并对BSVD的主要空间技术进行了全面的综述,包括数据存储和组织、空间索引、处理方法和空间分析。最后,基于以上述评和相关工作,列举了几个机遇和挑战,作为未来研究的重点和方向,以供参考。
关键词
大数据;矢量数据;大空间矢量数据;大数据管理;综述
1.引言
在过去的10年里,“大数据”已经成为学术界、工业界、商界以及政界最先进的技术术语。大数据是指在数据获取、存储、处理和使用方面超出传统数据库和软件工具能力的数据的快速增长(Chen等人,2013年;Manyika等人,2011年)。被标记为“3V+”特征的大数据创造了新的机遇(斯坦奇和波科恩,2014)和重大挑战(Chen等人,2013;坎奇,Sandilya,Ramkrishna,Manjrekar和Vhadga,2015)在大数据管理方面,这迫使迫切需要的革命性措施(Chen等人,2013;McAfee&Brynjolfsson,2012)。
在数据量增长和技术应用方面,大数据可能是最活跃的领域之一(Lee&Kang,2015)。随着云计算、NoSQL数据库等新一代高性能计算技术的发展和完善,相关理论和方法开始逐步渗透到地理信息科学(GIS)领域(杨黄力刘和胡,2016;杨宇胡江和李,2017)。特别是对于遥感大数据,到目前为止,基于云存储和高性能计算的遥感大数据收集、存储、组织、分析、可视化和应用的系统平台已经初步形成(Ma等,2015;Mulyono&Fanany,2015;Pekturk&Unal,2017;Sun,Chen,chi,&朱,2015;Wang,Ma,Yan,Chang,&Zomaya,2018;Wang等,2015)。然而,对于大空间矢量数据的研究相对较少,因为矢量数据集往往涉及国民经济、国防等基础设施建设等诸多特殊因素,这给大规模数据共享和获取带来了困难。
大空间矢量数据(BSVD)是一种广泛的空间数据类型,可以用点、线或面(面)来表示(Shekhar,Evans,Gunturi,Yang,&Cugler,2014;童,Ben,Liu,&Zhang,2013)。一般来说,BSVD可以包括所有的测绘数据、基于位置的数据、社交媒体数据,以及物联网数据。数据管理也是一个更复杂和更广泛的领域,涵盖数据存储、索引和查询、数据处理和分析(Siddiqa等人,2016)。已有的BSVD管理工作大多侧重于大数据的某些特征(数量、种类或速度),解决了技术层面或应用上的某些问题。虽然已经有一些与大数据相关的研究(Eldawy&Mokbel,2015A;Lee&Kang,2015;Yang,yan,&Nebert,2013)和大数据管理(Kanchi等人,2015;Karim等人,2017;Li,Xu,酱,&Zhang,2014;Siddiqa等人,2016;Storey&Song,2017),但到目前为止,还没有学者直接关注大空间矢量数据(BSVD)管理,并回顾了最新的文献,以提供现有技术和技术的全面综述。
本文主要研究大数据时代的空间矢量数据管理。分别讨论了海量空间数据、数据存储与组织、数据处理和空间分析。在BSVD管理的背景下,本研究对现有的技术和技术进行了分类,并突出了主流的学术观点,以帮助读者更好地理解和有效地处理BSVD管理中的问题。此外,本文还总结了大数据的特点和领域,并对BSVD的管理进行了概述。此外,还提供了大量关于BSVD的矢量数据模型、数据存储、空间索引、预处理、空间查询、可视化和空间分析的文献,并进行了分类。最后,对未来的研究兴趣和方向进行了展望,以期对研究者有所指导。
本论文的其余部分组织如下:第2节介绍了大数据和BSVD管理的一般概述。第3节和第4节分别讨论了数据存储(数据模型、存储和索引)和处理(预处理、空间查询、可视化和空间分析)的技术和技术。第五节重点介绍了未来空间矢量数据管理的重点和方向,第六节给出了本研究的结论。
2.空间大数据
2.1.地理信息系统中的大数据
地理信息系统是一门综合技术(赵,Chen,Ranjan,Choo,&He,2015),涉及地理学、测绘科学、计算机科学技术等多个学科。随着计算机科学技术的发展和计算模式的演变,地理信息系统的体系结构和应用模式也在不断变化。从桌面地理信息系统(20世纪60年代)到网络地理信息系统(80年代),再到分布式地理信息系统(90年代),再到云地理信息系统(2010),众所周知,地理信息系统的发展既受到计算机科学技术的极大影响(Yang,Raskin,GoodChild,&Gahegan,2010),又落后于计算机科学技术。毋庸置疑,在大数据浪潮的推动下,地理信息系统也进入了一个新时代--大数据地理信息系统(Li&Li,2014),一大批学者已经在大数据时代提出了一些新概念、新思想。如表1所示,它列出了大数据时代对地理信息系统的新思考。
此外,也有学者呼吁在从“大数据”向“大数据”转变的过程中进行地理学的核心研究。在大数据时代,通过使用云计算和物联网技术,我们不仅要建设下一代地理信息系统,还需要强调空间分析、建模和优化的基础理论,坚持地理信息系统哲学本身和空间思维(张,2014)。通过对新思想、新概念的比较研究,我们认为:大数据时代已经对地理信息系统产生了一定的影响,但当前的地理信息系统仍处于“数据大”阶段,地理信息系统的核心命题和基本范式并没有因为大数据的影响而发生根本性的变化。要使空间数据真正发挥其应有的价值,还需要大量的学者继续这方面的工作,本文希望能为以后的研究提供方便。
2.2.大数据空间
数据常常被称为地理信息系统的“血液”。这一点与大数据是一致的,大数据是以“数据”为基础,以“数据”为驱动的。大数据不仅反映了大数据量,现在它的特点也从3V(音量、速度、品种)增长到了4V(+准确性),甚至到了5V(+价值)(Li&Li,2014)。多年来,海量数据一直是地理信息系统研究的热点。根据空间数据的特点和来源,如图1所示,我们将地理信息系统数据归纳为五类,即遥感数据、测绘大数据、基于位置的数据、社交网络数据和物联网数据。通常,这些类别之间存在一定的交集。
(1) 遥感数据(Chi等人,2016年;Mulyono&Fanany,2015年):遥感数据的增长是从数量到质量的。有越来越多的卫星平台,包括航空航天、航空以及近空间。空间、时间和光谱分辨率不断提高,可通过TB级别获得,并通过PB存储。
(2) 测绘数据(Huang et al.,2016;Lu,Yuan,&Yu,2017;Wang,Guan,&wu,2017):通常包括地理位置、行业地理、自动测绘数据,如4D(DLG,DRG,DOM,DEM)数字产品、土地利用和其他国家基础测绘数据。近年来随着随着新的测绘设备和技术的发展,大数据时代加快了,如点云、移动测绘等,可以快速高效地获取测量区的空间分布数据。
(3)基于位置的数据(Liu,Fang,Guo,&Gao,2014;Liu等,2015;Zangetal.,2017):通常包含空间位置和时间标识的地理和人类社会信息数据称为基于位置的数据。基于位置的数据主要是与智能手机产生的GPS、BDS等定位系统、野外采集数据、交通轨迹数据等。基于位置的大数据已经成为感知人类社会群体活动的重要战略资源。
(4)社交媒体数据(Cervone等人,2016;Magdy,Mokbel,Elnikty,Nath和He,2016;邹,2015):具有空间位置的互联网数据,包括用户的网页、社交媒体中的数据,如微信、脸书、推特等社交软件。目前,社交媒体数据在网络舆情、自然灾害监测、环境执法等方面发挥了重要作用。
(5)物联网数据(Alelaiwi,2017;Ding,Chen,&Yang,2014):各类传感器监测数据,包括环保、气象、供水、管道监测、可穿戴设备、智能家居等。与传统互联网相比,物联网数据产生的频率更高、种类更多。
2.3. BSVD管理
数据管理是一门多学科,它使用计算机硬件和软件技术来有效地收集、存储、处理和应用数据(Kanchi等人,2015)。它的目的是是利用数据进行商业智能和科学决策(Siddiqa等人,2016)。在大数据时代,数据管理的变化不仅仅是数据本身,还有计算机硬件和软件技术。大数据管理在数据存储、处理和治理方面面临新的挑战(McAfee&Brynjolfsson,2012)。图2描述了大空间矢量数据(BSVD)管理的关键流程。每一步都需要重新考虑当前的技术环境,包括存储、空间索引、处理和应用程序。
大数据管理已经成功地应用于各个行业,如信息安全(徐、江、王、袁、任,2014)、教育(张,2017)、健康(布拉德利,2013)、考古(麦考伊,2017)等。对于BSVD管理,表2列出了现有的框架或系统,从架构、空间索引和空间查询三个方面进行了比较。
3.数据存储和组织
数据的存储和组织是数据管理的基本步骤。现有的存储策略以各种方式存在。为了在大型空间矢量数据系统中提供更好的数据采集接口,数据模型、存储方式和空间索引是必须考虑的三个方面。数据模型的设计适应了存储模式,空间索引将加快大数据检索的效率。
3.1.矢量数据模型
在矢量数据模型中,空间元素由点、线和面表示(Shekhar等人,2014)。与栅格数据模型相比,该模型具有精度高、体积小、质量好等优点。根据空间数据和属性数据之间的存储关系,可以将矢量数据模型归类为地理关系模型和面向对象模型。由于易于理解、扩展、表示和实现的优点(Wojda&Brouyère,2013),面向对象模型已经非常流行。虽然OGC标准(Zeng&Fu,2013)提供了一些常见的矢量数据结构,如KML、GML、WKT/WKB和GeoJSON,但并不是所有的结构都适合大数据存储结构。如图3所示,新的空间数据模型应该从矢量数据模型和数据库中的数据模型两个方面来考虑。
Key-Value模型是目前主流的存储模型,在大量的NoSQL数据库。在键值模型中,每条记录由两部分组成,也称为“键/值对”,支持简单的数据操作。基于简单的键值在这种模式下,空间矢量数据可以通过新的空间矢量数据模型导入和存储到大数据平台(Wang,Chen,&Liu,2013;Zeng&Fu,2013),例如HDFS和HBase。如图4所示,GeoCSV的数据结构基于基于对象的矢量数据模型存储云环境中的空间几何元素。GeoCSV使用简单的键值存储模型和OGC-WKT格式来描述空间几何。它利用CSV(逗号分隔值)文件来组织空间矢量数据,即每条记录只表示一个空间几何对象。这与云计算平台是一致的,有利于空间数据的分割、处理和分析。它基于GeoCSV,具有并行计算、网络传输、可扩展等优点。
3.2. 数据存储
空间数据库是管理矢量数据的有效手段,是矢量数据查询、分析和应用的基础。近半个世纪以来,空间数据库管理技术主要经历了文件系统(20世纪70年代)、文件关系混合系统(80年代)、空间数据库引擎(90年代)和面向对象的关系数据库空间管理系统(21世纪)四个发展阶段。在大数据时代,随着计算机科学技术的发展,空间数据库出现了新的研究成果。目前,大型矢量数据的存储和组织方式主要有以下三种模式:关系型数据库、NoSQL数据库和分布式文件系统。
3.2.1。关系数据库
在Oracle、PostgreSQL等关系数据库的基础上,空间矢量数据的分布式存储一直是分布式空间数据库的研究热点,而分布式空间数据库引擎的设计与实现是一个长期的工作重点。通常,分布式SDE支持二次应用程序开发,即在用户和数据库之间架起桥梁。Niharika(Ray,Simion,Brown,&Johnson,2013)是一种基于PostSQL和PostGIS的分布式空间数据库模式,在云环境中执行空间数据的划分和读写操作。Sphinx(Eldawy,Elganainy,Bakeer,Abdelmotaleb,&Mokbel,2015)扩展了ApacheImpala,以支持空间查询的SQL语言。OracleRA(RealApplicationClusters)和OracleSpatial为并行查询提供了分布式空间矢量数据管理系统(Hameurlain&Morvan,2016)。基于SQLSERVER数据库和ArcGIS服务器,建立了用于管理耕地质量大数据的LandQv1(姚等,2017)。基于关系数据库的矢量数据管理系统的优点是数据量和数据库迁移量小,同时在服务层和应用层与原有系统进行高效集成。
3.2.2。NoSQL数据库
NoSQL,或者不仅仅是SQL,指的是非关系数据库。目前主流的NoSql数据库包括列存储和键值模式,如mongodb、bigtable、hbase、redis…由于NoSQL数据库具有分布性、可扩展性、无预定义的表结构等优点,近年来在大型空间矢量数据管理领域受到了研究人员和商业企业的青睐。在HBase的基础上,使用MD-HBase系统(Nishimura,Das,Agrawal,&ElAbbadi,2011)来管理LBS数据,并构建了基于K-d索引树的空间划分,以支持范围和相邻查询功能。GeoMesa(Hughes等人,2015)是由联邦计算机研究中心推出的,并利用HBase数据库实现了基于GeoHash索引的空间范围查询功能。由中科院开发的VegaSTDE平台(钟、方、赵,2013),包括VegaStore存储层,分别设计和实现了HDFS和HBase数据库的混合存储结构,以支持改进的四叉树索引和时空数据查询功能。基于NoSQL数据库的大空间矢量数据(BSVD)存储不仅部署方便,而且可以有效集成多源空间数据,有利于并行计算。
3.2.3.分布式文件系统
分布式文件系统通过计算机网络连接到节点以管理存储资源。它对普通计算机有很好的支持,在集群中也有很好的可扩展性和容错性。其中,Hadoop分布式文件系统(HDFS)是典型的分布式文件系统。对于基于HDFS的空间矢量数据存储,CLOST(Tan,Luo,&Ni,2012)以创新的数据模型(ID/位置/时间)存储GPS数据,并支持R树索引的并行实现。Hadoop-GIS(Aji等人,2013)是为了建立一套高性能的空间数据仓库系统而开发的。通过空间划分实现了对多种空间数据的查询,结果表明该系统优于并行空间数据关系数据库系统。开源框架SpatialHadoop(Eldawy&Mokbel,2013,2015b)涵盖了基于鸽子(Eldawy&Mokbel,2014)、空间数据索引、空间查询和可视化(Eldawy,Mokbel,&Jonathan,2016)、应用(Eldawy等,2015)等解决大数据空间矢量管理基本问题的高级程序明语(Eldawy&Mokbel,2014),在业界具有重要的代表性和参考价值。基于HDFS的GeoSpark(Yu,Wu,&Sarwat,2015)采用三层体系结构设计,即ApacheSpark层、空间数据分布层和空间查询操作层。Simba(Xie等人,2016)使用基于HDFS和RDBMSS的混合架构来存储矢量数据,而Spark扩展了SQL引擎,支持数据查询和分析功能。
3.3.空间索引
空间索引可以简单地理解为一种数据组织结构,它可以快速且随机地访问其中的单个或多个空间对象。今天,海量数据存储不再是文件或机器。分布式存储已经成为主流解决方案,如GoogleGFS、HadoopHDFS等。分布式空间索引建立在分布式存储系统上,以满足海量空间数据的快速检索。因此,空间索引的优劣都受到分布式存储系统的限制。空间数据存储在集群的不同节点上,名字节点和数据节点之间有一定的通信协议。如图5所示,大型空间矢量数据的分布式索引主要包括局部索引、全局索引和两者的混合索引。
在分布式空间索引中,数据划分起着非常重要的作用。空间数据划分是指将一个空间数据集按照一定的划分规则划分为若干个数据块的过程。传统的属性数据划分方法,如ID划分或随机划分,对于空间数据的划分并不理想(姚等人,2017)。对于空间数据,一个好的空间数据划分策略应该确保空间操作的最佳性能和集群中的数据平衡(魏等人,2015)。空间划分方法可以归纳为三类(Eldawy,Alarabi,&Mokbel,2015;姚等,2017),即空间划分、数据划分和空间填充曲线划分。基于上述划分方法,针对大数据量的空间矢量数据建立了相应的空间索引,如k-d树(魏等,2015),网格,G-树(钟,Li,Tan,周,&Gong,2015),HQ-树(冯,唐,魏,和徐,2014),以及其他(Al-Badarneh&Al-Alaj,2011;Li&Zeng,2013;Scitovski&Scitovski,2013;Whitman,Park,Ambrose,& Hoel, 2014).
4.数据处理与分析
这一部分讨论了大空间矢量数据(BSVD)管理中的处理和分析方法。数据处理是一个涉及面很广的领域,涵盖了从数据前处理到数据应用的整个数据流。几何计算算法总是非常复杂和耗时,这使得大型空间数据的处理非常缓慢,甚至不可能(Ray等人,2013)。本文仅涉及大数据技术对数据处理和分析方法的影响。如图6所示,最近的文献中提出了BSVD处理和分析的四种分类,即预处理、空间查询、可视化和空间分析。
4.1.数据预处理
随着数据量的爆炸性增长,数据的预处理变得越来越复杂。然而,在深入使用它之前,尤其是在数据质量方面,它仍然是非常关键的一步(Taleb,Dssouli,&Serhani,2015)。对于大数据量的空间矢量数据,数据清洗、坐标/投影变换、数据格式转换等都涉及到数据的预处理。这些处理方法大多是面向对象的,因此非常适合并行化。
通常,数据清理工作将在数据进入应用程序系统之前完成。对于空间矢量数据,将从整个数据集中检测并纠正(或移除)损坏或不准确的记录。地理坐标和平面坐标之间的转换是一种常用的方法。针对柱面投影,提出了一种基于空间网格的线性规则近似模型(LRA模型)(Ye等人,2016)并进行了计算。该模型构造线性多项式来逼近变换规律,取得了较好的效果。针对海量空间矢量数据(BSVD),提出了一种结合云计算能力和图形处理器(GPU)加速的高性能计算能力的分层结构的并行地图投影框架(Tang&Feng,2017)。由于获取手段的不同,空间矢量数据的组织形式有多种,如Shapefile、KML/KMZ、DXF/DWG、GPX等。尽管OGC已经有了相应的文档标准和互操作协议,但由于处理工具的功能限制(Shenen,Wong,Camelli,&Liu,2013),很难实现大数据集的格式转换。数据转换是从一种格式到另一种格式的标准化和聚合(Jhummarwala、Mazin和Potdar,2016)。针对Hadoop中的耕地质量管理,利用MapReduce语言开发了一个将Shapefile格式的数据转换为GeoCSV格式的工具。EsriGISToolsforHadoop(ArcGIS,2017)支持将数据格式从Shapefile到GeoJSON。
4.2.空间查询
在地理信息系统应用中,空间查询操作是进行空间分析的基础,也是用户使用地理信息系统的窗口。空间查询通常是基于空间索引机制,从数据库中找到符合这种条件的空间数据。因此,执行效率在很大程度上依赖于空间索引算法的性能(钟等人,2012年)。
空间矢量数据的常见查询操作包括范围查询、空间连接和k近邻查询。如表2第三栏所示,基于不同的平台,如GPU(Zhang&You,2012)和Hadoop(Bellur,2014),这些查询方法在不同的框架或系统中实现。此外,一些专业的查询引擎,如Touch(Nobari等人,2013)、PHIDJ(Fries,Boden,Stepien和Seidl,2014)和AQWA(Aly等人,2015),都是为了在云或分布式系统中进行大规模空间查询处理而开发的(Bellur,2014;You,Zhang,&Gruenwald,2015a,2015b)。
4.3.可视化
空间数据可视化已成为大数据时代的主要分析手段。为了可视化大型空间数据集,OGCWeb地图服务(WMS)提供了一个简单的HTTP接口,用于请求地理注册的地图图像(返回为JPEG、PNG等)。来自一个或多个分布式地理空间数据库(姚、朱、云、彭和李,2017)。通过对地图瓦片金字塔的缓存,网络管理系统可以使栅格或大型空间矢量数据在网络地理信息系统应用程序中的客户端浏览器中实时显示和放大或缩小(姚等,2017年)。然而,现有的针对大比例尺地图数据的解决方案并不理想(郭等人,2015;林、周、夏,2016)。一方面,地图切片过程耗时较长,甚至无法完成;另一方面,对于切片,一次可执行的空间数据量有限,导致客户端管理和加载的服务和路径太多。为了满足大规模矢量数据的快速可视化需求,该算法被并行实现。HadoopViz(Eldawy等人,2016年)通过使用三阶段技术:对瓦片和热图进行划分-绘制-合并来实现地图瓦片金字塔模型(Eldawy&Mokbel,2015b),并且它还提供了一个可扩展的接口来由用户添加新的可视化类型(Eldawy&Mokbel,2015b)。此外,如何管理数十亿个MAP瓦片切片工具生成的数据也是一个重大问题。基于NoSQL数据库,开发了地图瓦片的并行存储和管理,以加快地图可视化的速度(Linetal.,2016)。
如图7所示,地图可视化的瓦片金字塔模型不仅仅基于图像(Li,Hu,朱,Li,&Zhang,2017)。近年来,矢量瓦片技术以其灵活的样式和丰富的紧绑定属性信息成为一种新的方法来提供大矢量数据集的可视化。使用地图矢量瓦片s,如果您想要过滤输出或在客户端更改几何要素的样式,则不需要返回服务器并获取不同的瓦片集(Yu等人,2017年)。到目前为止,商业软件和开放源码(Mapbox,2018)正在涌现,以支持矢量瓦片,包括ESRI产品,Mapbox,以及其他。
4.4.空间分析
空间分析不同于传统的统计学(张,2014),它具有位置、方向、尺度等特点。…大数据时代的空间分析更复杂,也更有价值和用处。本文重点介绍了以计算为中心的分析方法,如空间覆盖、空间聚类、空间内插、缓冲、裁剪和Voronoi分析等,这些方法不涉及面向应用的分析方法。
空间叠置分析是一项费时费力的复杂几何算法。空间覆盖处理的并行算法是必需的(朱、霍、秋,2015)。使用MPI集群计算和OpenMP多核并行计算工具,在基于Linux的集群系统上实现了并行点-多边形覆盖分析(周等,2015。基于MapReduce程序,实现了一种基于栅格索引的GIS多边形叠置处理的并行方法(Wang,Liu,Liao,&Li,2015)。为了提高大型空间矢量数据的执行效率,在分布式计算环境下,提出了一种基于双索引和数据分治的并行点多边形叠加方法(周等,2015)。空间聚类是空间数据库中知识发现的主要数据挖掘方法。基于密度的算法(MDBSCAN)(Schoier&Borruso,2015)被用来发现大空间集中的单元簇。地震在大数据的情况下,可以使用基于密度的集群来查看分区(Scitovski,2018)。空间内插(姚,朱,叶,张,李,2014)被用来从采样数据集中计算未知点的空间分布。为了提高结果插值法的执行速度,提出了一种大数据并行Kriging插值法(魏等人,2015)。基于CPU-GPU,实现了一种适用于海量LiDAR点云的混合并行空间内插算法(Wang等,2017)。缓冲区分析和空间裁剪方法是最基本也是最常见的空间操作。为了提高大规模数据的计算效率,通常采用缓冲(Fan,Ji,Gu,&Sun,2014)和裁剪(Puri&Prasad,2014,2015)的并行算法。Voronoi分析是一种空间邻近分析方法。用于构建Voronoi图的并行计算(Boltcheva&Lévy,2017;Starinshak,Owen,&Johnson,2014)是为了加快数据分析和可视化。除了上述空间分析算法外,CG_Hadoop框架(Eldawy,Li,Mokbel,&Janardan,2013)提供了一组基本的计算几何算子,即用于其他几何算法的多边形并、天际线、凸壳、最远对和最近对。
5.未来的利益和方向
通过对海量空间矢量数据(BSVD)管理的探讨,在这一领域取得了多方面的成果。但是,大量重大问题和挑战仍然存在,需要在未来加以解决。基于我们的理解和观点,本部分提出了BSVD管理的三个潜在研究方向,希望能对感兴趣的研究者有所启发。
5.1。时空数据模型
现有分布式存储系统的发展,如关系数据库、NoSQL数据库和HDFS,可以容纳大数据集,但需要更多地强调更好地支持时空数据,这是大空间矢量数据(BSVD)的一个非常重要的特征(Yang等,2013)。因此,需要一个时空数据模型来覆盖所有大数据,并更好地支持云环境中的上层空间索引和分析(Chen等人,2015)。
5.2.可视化分析
在大数据时代,空间数据可视化已经成为一种重要的分析方法,是理解数据最直接、最有效的手段。可视化分析不是简单的大数据基本信息展示,而是推动复杂的分析(Keim,Qu,&Ma,2013)。特别是,对于新兴的大型空间矢量数据,如社交媒体数据、GPS轨迹数据和历史速度剖面(Shekhar等人,2014),传统的可视化方法跟不上数据的速度和数量(Ali,Gupta,Nayak和Lenka,2016),未来需要创新的可视化分析工具和技术。
5.3. DGGS
空间矢量数据的全球分布将推动大数据时代的数据管理进入全球规模。离散全球网格系统(DGGS)是一种新的OGC标准,旨在满足全球采样、存储、建模、处理、分析和可视化的需求(Purss,Gibb,Samavati,Peterson,&Ben,2016)。由于大空间矢量数据的差异性和连续性,大空间矢量数据(BSVD)在DGGS中的建模和表达是困难的(童某等,2013)。然而,随着全球化和BSVD的多尺度,以及与其他数据的集成和融合,DGGS将是一个很好的解决方案。
除了上述建议外,在大数据时代,如果安全和隐私(Xu等,2014),BSVD的标准化没有得到解决,未来BSVD的共享和应用将在很大程度上受到阻碍。
6.结论
人类生活中产生的80%的数据与空间位置有关(Lee&Kang,2015)。地理位置拥有大数据的得天独厚的优势。因此,它也被称为大数据研究和应用的“天然试验场”(吴等人,2015)。在大数据技术浪潮的推动下,大空间矢量数据(BSVD)受到了影响和变化,尤其是在数据管理方面。本文从现有的BSVD管理工作入手,总结了BSVD管理的三个主要方面,即大空间数据、数据存储与组织、数据处理与分析,并从理论和技术层面进行了详细的描述。首先讨论了BSVD管理的概况,然后在数据存储和组织层描述了大空间矢量数据模型、存储模式和空间索引。此外,我们还讨论了数据的预处理、空间查询、可视化和空间分析。最后提出了三个未来的研究方向和研究方向。大数据管理还处于初级阶段(Siddiqa等人,2016),大数据空间矢量数据也是如此。因此,该领域需要更多的理论和技术支持,才能更好地理解和继承GIS理论的核心,有效解决BSVD的关键问题。同时,BSVD应该需要顺应大数据的核心理念和技术,才能拥有辉煌的未来。