大数据时代地理信息系统的应用分析
摘要
关键词
大数据;地理信息系统;应用
正文
1大数据时代背景下GIS的挑战
随着大数据时代到来,空间大数据虽然数据价值大,但价值密度低,导致实时分析决策能力不足,如何从中有针对性地提取感兴趣的目标信息、信息量不够丰富以及时效性差等是应用过程中的巨大挑战。大数据最基本的特征之一就是数据量巨大,以GIS空间大数据为例,面临着不断累积的数据存储量和依旧不断增多的数据量,用户面临的数据计数单位从之前的GB级到TB级甚至到之后的PB级发展,随着每天仍然有大量的用户通过集中的关系型数据库进行存储,面临逐步增加的数据容量,集中式存储模式已经无法承载如此大的数据量,同时也无法为计算分析提供高效的存储保障。越来越多的用户不仅需要接入传统测绘数据类型,如矢量数据和影像数据,还需要可存储新型测绘数据类型,如倾斜摄影模型、BIM、激光点云等,同时还需要接入带有地理位置的IT大数据,系统接入的数据类别也越来越多,越来越丰富。前两种数据类型还有相对比较规范的数据标准,而IT大数据还处于模态多样、杂乱无章、标准不统一、时空尺度不统一、精度不统一等阶段,如何梳理成可信数据也成为一大挑战。
图1 时空大数据管理系统
2大数据时代背景下GIS的机遇
传统GIS处理的是静态数据,而如今98%都是动态的数据。龚建雅院士也提出了“实时GIS是未来的发展趋势,在统一的空间大数据框架下,基于传感网的实时动态GIS可以实时管理与分析城市内部的人流、物流和事件流,因而能够在智慧城市中发挥重要作用”。如何能够接入多源的传感设备,快速高效处理实时数据,同时动态实现实时数据的可视化展示也是GIS要面临的一大挑战。当然更大的挑战就是如何从空间大数据中,通过GIS技术去实现数据挖掘,通过GIS的空间分析、空间查询和空间可视化等技术优势为用户提供指导和决策。这就需要GIS具有大数据的相关技术支持。在主流的IT技术体系下,已经有相对成熟完善的大数据技术支持,从各种各样类型的大数据中,快速获得有价值信息技术,包括数据采集、存储、管理、分析挖掘、可视化等技术集成为一体。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、分布式存储以及云计算平台等。这就需要传统GIS基础软件在空间数据的各个环节去扩展、升级、优化其大数据的处理能力,为空间大数据的挖掘提供平台支持。现有的地理空间大数据价值还没有充分发挥出来,深度挖掘地理空间大数据价值仍在路上,大数据本身不等于价值,它是“贫矿”,只有挖掘出它的价值,才是“金子”。
GIS技术并不仅仅要解决与空间大数据技术的融合,更重要的是如何能够通过GIS大数据技术为各个行业的相关业务提供多元思维、多元决策。为了满足各行业能够迎合新技术的冲击,新技术为各行业发展提供了坚实的技术基础。当然更大的挑战就是如何从空间大数据中,通过GIS技术去实现数据挖掘,通过GIS的空间分析、空间查询和空间可视化等技术优势为用户提供指导和决策。这就需要GIS具有大数据的相关技术支持,从各种各样类型的大数据中,快速获得有价值信息的技术的能力,包括数据采集、存储、管理、分析挖掘、可视化等技术集成为一体。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、分布式存储以及云计算平台等。这就需要传统GIS基础软件在空间数据的各个环节去扩展、升级、优化其大数据的处理能力,为空间大数据的挖掘提供平台支持。
3大数据时代地理信息系统的应用分析
3.1地理信息数据的存储和管理
地理信息数据类型不是单一的,而是多种多样的,由于地理信息数据类型具有多样化的特征,这会加大地理信息处理难度。为了提高地理信息分类处理水平,可以采用HDFS创建数据管理集群,同时利用集群中的大量节点协同推进信息数据的存储与管理工作,从而优化处理各种类型的信息数据。结构化的数据与非结构化的数据是地理信息数据的组成部分。为了进一步提高结构化数据以及非结构化数据的处理水平,可以创建Hive数据仓库和Hbase数据仓库。在存储完地理信息数据后,还需要做好数据的计算处理工作,其中可以应用Mapreduce、Hadoop集群等计算数据。
3.2基于分布式存储时空大数据存储策略
针对地理时空大数据数据量大、数据格式复杂、更新快、应用场景众多的特点,本文研究一种基于分布式存储技术的时空大数据存储策略,在纵向上设计对数据库进行划分,解决在地理时空数据存储过程中的低性能、难扩展等问题。分布式数据库具备高透明、多副本及易扩展的特点。底层节点对用户透明,易于管理;通过副本集实现数据复制,具备一定的容错率,提高系统可靠性;利用数据分片等分布式存储技术应对高并发的数据存取访问,并可将数据动态分布于新增节点上,实现系统扩展。地理时空大数据一般具备集中写入、持续读取的特点,本文设计采用一主一从或一主多从的副本集技术,保证同一数据在不同的副本上是一致的,主库数据发生故障时,可以由从库实现同步读取,保证了系统的安全可用。从库的数量由并发访问量决定,在云架构的基础上,结合实际业务运行情况,动态调整从库数量。副本集技术中,主库负责写入,从库负责读取,主从库之间通过复制机制保持数据同步。在主从数据库之上增加中间件,提供连接池、负载均衡等功能,统一接收数据读写请求,依据请求类型,写操作提交主库,读操作依据主库和各从库的负载情况进行灵活调度。当超过限制的连接数后,中间件会拒绝数据库连接请求,保持数据库运行的稳定性。
3.3借助大数据交互处理方式,革新地理信息系统的数据处理模式
3.3.1 大数据交互处理方式
大数据交互处理方式指依托于人机交换及时处理和调整相关数据信息,并将处理结果实时共享给用户。目前现有的大数据交互处理系统主要由Dremel和Spark组成。其中Spark系统指高效分布式计算系统,这种系统的性能远高于Hadoop系统的数据处理效率,还有着性能优良的API。最重要的是,Spark的代码也较为简洁,但Hadoop若想表达出相同的功能代码,还需要付出超十倍甚至百倍的代码长度。与此同时,Dremel还能以秒为单位快速处理PB级别的海量数据,利用上千个规模的集群共同组建完成。实际上Dremel的设计原本就是基于Map Reduce衍生而来的,因此其有着优越的规模和交互查询能力。此外,Dremel同步处理半结构化与非结构化数据时,通常需要以嵌套式数据模型为基础进行处理。
3.3.2 大数据列式存储
Dremel系统主要是通过列式存储的方式保护相关数据信息,其在数据分析和处理过程中,只需要针对某些数据进行集中处理,这种方式极大地减少了磁盘及CPU的访问量。与此同时,在实际应用过程中还可以将Dremel与Web搜索、DBMS技术进行有机融合,依托于Web搜索中的“查询树”这一功能,就能有效分割查询搜索中的庞大数据库,并将其科学分布到各个批量节点上,以此提高数据查询处理的简便性。例如,以HBase为基础的嵌套式数据存储系统,就是基于HBase原有的分布式存储构架,充分发挥其可用性强、延展性良好的优点。利用HMaste对数据存储系统进行管理时,还可以将HRegionServer作为载体对每个子节点进行数据存储管理,同时优化原有的列式存储格式,以此构建成全新的嵌套式数据存储格式。而基于Dremel的嵌套式数据存储文件格式还能达到数据持久化的目的。另一方面,以HBase为基础的嵌套式数据存储系统中的存储和读取模块还有着良好的读写功能,使读写模块中的查询功能发挥出明显优势。实际上这种交互式数据处理方法还优化了查询功能和分片存储数据功能,从整体上提高了海量数据的处理效率。
综上所述,传统地理信息系统主要是通过列式存储Dremel嵌套式模型来存储多比例尺数据库,利用类似于Web搜索的数据处理方法查询与整合分片数据,以此充分满足数据的实际处理需求,进而有效优化与处理空间数据,节约数据搜索的系统开销,最大限度地提高了地理信息系统的响应速度。
4结语
随着现代科技手段的日益完善,大数据技术逐渐在各行业领域中得到了广泛应用,因而在地理信息系统中科学运用大数据已成为迎合新时代发展需要的必然选择。在地理信息系统中正式应用大数据前,还需要从数据存储和数据处理两方面着手,研究地理信息系统应用过程中存在的实际问题,并在此基础上依托于大数据存储方式革新地理信息系统的数据存储方式。与此同时,在大数据交互式处理方式的支持下,还可以从地理信息系统的处理和更新两方面着手对其应用进行创新。
参考文献:
[1]张雪英,闾国年,叶鹏. 大数据地理信息系统:框架、技术与挑战[J]. 现代测绘,2020,43(06):1-8.
[2]黄相维. 大数据在地理信息系统中的应用探索[J]. 黑龙江水利科技,2021,49(04):190-192.
[3]卜春燕. 大数据在地理信息系统中的应用探讨[J]. 世界有色金属,2021(13):225-226.
...