关于数据库:HashData助力中科院打造地球大数据

50次阅读

共计 1842 个字符,预计需要花费 5 分钟才能阅读完成。

背景

中国科学院“地球大数据迷信工程”A 类战略性先导科技专项(简称“地球大数据专项”)于 2018 年 1 月 1 日正式立项。该工程以建成具备寰球影响力、国际化、开放式的国内地球大数据迷信核心为指标,致力于推动并实现地球大数据技术创新、重大迷信发现和一站式全方位宏观决策零碎。

地球大数据专项一个典型的利用例子是:定量统计分析黄河三角洲过来 40 年的变动,包含湿地海岸线、河岸生态系统以及土地利用类型等。传统的做法是差遣科研人员到实地考察,这是简直不能实现的工作。咱们心愿通过该工程,基于对地检测卫星过来 40 年拍摄到的黄河三角洲的遥感图片,利用深度学习和海量天文数据处理技术,准确地量化具体变动指标。

产品状态上,地球大数据专项的指标是打造中国版的“谷歌地球”,设置了包含地球大数据卫星、数据一路一带、全景漂亮中国和大数据云服务平台等在内的共 9 个子我的项目。其中,大数据云服务平台是整个专项的技术基座,通过将资源、环境、生物、人文、生态等畛域的数据汇聚起来,构建一个数据存储、剖析解决和共享平台,并在此基础上提供数字地球迷信服务。

面临挑战

作为一个雄心勃勃的我的项目技术基座,地球大数据云服务平台天然面临着一系列技术挑战:
数据规模宏大,构造泛滥:

      •   反对 38PB 根底存储量,每年新增 5PB 数据;•   对地观测、高空观测、根底天文等多种业务模式;•   涵盖结构化、半结构化、非结构化格局;

利用场景宽泛:

      •   反对 33 个院系、129 个单位应用;•   涵盖资源、环境、生物、生态多个畛域,不同学科的交融;

科学计算个性:

      •   满足高性能计算需要及数据格式多样化;

数据存储和拜访:

      •   反对 100+PB 的数据规模及灵便拜访形式;

共享与隔离:

      •   不便数据共享及计算性能的隔离;

解决方案

作为地球大数据专项的外协单位,咱们与中科院网络核心、中科院计算所一起参加布局建设了大数据云服务平台,利用 HashData 数据仓库为整个工程提供海量数据的存储和解决剖析能力。大数据云平台整体架构图如下:

通过集成到地球大数据云平台的 HashData 数据仓库服务,科研院所单位用户能够在几分钟内创立启动一个数据仓库,规模从几个到上百个节点,数据加载后立刻开始数据分析工作。随着数据量和剖析工作负载的变动,还能够动静地对数据仓库集群进行弹性伸缩。同时,因为是齐全托管的云服务,HashData 治理控制台承当了所有的集群资源配置、数据备份、继续监控、网络迁徙、故障复原、高可用和降级等纷繁复杂、易出错的运维工作,让用户(特地是思考到地球大数据云平台的次要用户是科研人员,而不是 IT 人员)专一于科研数据分析上。

其次,对象存储作为整个地球大数据云平台的数据长久层,可能以非常低的老本存储提供海量存储能力,包含结构化、半结构化和非结构化数据,有很高的可用性和持久性,满足专项日益增长的数据量。联合 HashData 湖仓一体的能力,用户能够通过对立的 SQL 接口对各种数据进行高性能的交融剖析解决。

再次,借助 HashData 数据仓库元数据、计算和存储三者拆散、多集群对立数据存储的架构(参考文章《HashData 多集群共享对立存储架构》),每个科研院系单位都能够创立本人的计算集群,确保计算性能隔离的同时,又可能实现数据在不同院系之间的充沛共享,减速科研进度。

最初,通过基于 HashData 的 MPP 计算引擎实现分布式 PostGIS 性能,进行矢量和栅格数据解决,架构示意如下:

整体实现了分布式 GIS 空间数据处理, 反对矢量、栅格数据分布式加载入库,并在库内针对空间数据建设索引, 栅格数据入库可主动切割瓦片,依据瓦片边界建设索引。在外部实现的 GIS 空间数据高效分布式计算,反对空间范畴查问、矢量数据叠加剖析。

总结

HashData 数据仓库云服务已于 2020 年 12 月 30 号在地球大数据云平台上线,可为 130 余家科研院所提供大数据分析服务。除了为大数据云平台包含地球共享服务零碎、CASEarth Databank 零碎和数据丝路地球大数据系统等其它零碎提供撑持外,同时还为科学院外部院系提供通用的数据仓库服务,用于多种利用场景,包含寒旱所的地表观测数据处理,遥感所的植被散布统计,和地质所的地质勘探数据分析。在地理信息数据处理性能方面,绝对于之前的解决方案,HashData 数据仓库也有很大的晋升,例如数据加载提速近 100 倍,栅格数据叠加剖析提速近 70 倍。

随着地球大数据云平台的逐渐成熟稳固,HashData 数据仓库将撑持越来越多的数据存储、剖析和共享工作,为中科院数字地球科学研究做出更多奉献。

正文完
 0