随着互联网以及物联网等技术的一直倒退,越来越多的数据被生产进去。基于 IDC 的报告预测,从 2013 年到 2020 年,寰球数据量会从 4.4ZB 猛增到 44ZB,而到了 2025 年,寰球会有 163ZB 的数据量,这些数据中蕴藏着不可估量的价值,从数据中开掘价值发明新业务曾经成为所有企业的共识。然而,开掘数据价值第一步,是要先把企业全域数据汇聚起来,让数据真正成为企业的外围资产。于是,企业级数据湖的建设,成为数据价值逐步开释的要害底座。

最后企业开始自建开源 Hadoop 数据湖架构,原始数据对立寄存在 HDFS 零碎上,引擎以 Hadoop 和 Spark 开源生态为主,存储和计算一体。这种数据湖架构存在入门门槛高、开发保护艰难、稳定性难以保障等显著的毛病。企业急需一套一站式解决所有从数据湖建设到数据湖治理的解决方案。

基于星环 TDC

一站式建湖、入湖、治湖、用湖、管湖

一个残缺的数据湖解决方案须要建设在数据接入、数据存储、数据计算、数据利用、数据治理、元数据、数据品质、数据资源目录、数据安全及数据审计等一些列技术之上。市场上的数据湖解决方案少数只具备局部能力,给企业建设数据湖带来阻碍。

基于星环科技大数据云平台 Transwarp Data Cloud(TDC)、星环大数据开发工具 Transwarp Data Studio (TDS)等产品的星环数据湖解决方案,可能一站式解决企业从建湖到管湖全副过程,为企业治理和决策提供数据根底与剖析能力保障,助力企业倒退。

图片

在数据入湖阶段,星环科技大数据整合工具 Transporter 负责将扩散于各个中央、各种平台上的各种格局的数据同步或集成到大数据平台上,通过简洁、对立的可视化界面疾速配置数据流转流程,实现异构平台和数据湖之间的数据流转。

数据湖自身是一个中心化的存储,须要存储结构化、半结构化和非结构化数据。星环极速大数据平台 Transwarp Data Hub (TDH ) 内置关系型数据存储引擎、宽表存储引擎、搜索引擎、天文空间存储引擎、图存储引擎、键值存储引擎、事件存储引擎和时序存储引擎 8 种独立的存储引擎,反对业界支流的 10 种存储模型。用户还能够依据业务的须要随时增减不同的存储引擎,做到资源按需分配,解决数据湖多模态数据存储。

TDC 数据湖外围组件关系型剖析引擎 Inceptor,具备残缺的 SQL 反对、超高性能、分布式事务和混合负载反对的弱小能力,反对多种数据格式、多种数据加载形式、海量多源异构数据的对立存储和治理;宽表数据库 Hyperbase,面向在线业务的数据库,提供数据的实时增删查改能力,并能确保库内数据的一致性;搜索引擎 Scope 用于构建大数据搜索引擎,反对Word/Excel/PDF/CSV/互联网数据/图片/音影等非结构化数据格式的存储和检索;可能在PB数据量级上实现秒级提早的搜寻性能;提供残缺的 SQL 语法反对;实时流计算引擎Slipstream 提供实时计算能力,领有残缺的 SQL 反对,基于事件驱动的计算引擎可将延迟时间缩减到 5 毫秒以内。

在数据安全及数据审计能力上,基于星环科技平安组件 Guardian,TDC 数据湖可为租户提供牢靠的认证机制,防备安全漏洞,实现资源管理和行级列级的权限管制,在云环境下爱护用户隐衷和信息安全。

在数据治理、元数据、数据品质、数据资源目录等能力上,星环科技提供了集开发与治理为一体的一站式工具平台 TDS,提供了数据开发、数据集成、数据管控、数据商城和数据服务等能力。TDS 的子产品涵盖了:面向数据库 SQL 程序开发者的桌面集成开发环境 Waterdrop、网页版的团队合作的 SQL 开发环境 SQLBook、可视化的 ETL 开发工具Transporter、数据计算工作的调度平台 Workflow、数据可视化工具 Pilot 、数据 API 的开发与管理工具 Midgard以及数据资产治理工具软件 Catalog、数据品质管理工具 Governor、数据安全治理工具Transwarp Defensor、数据商城 Transwarp Foresight、数据服务开发工具 Midgard 和标签开发工具 StarViewer。

星环 TDC 数据湖解决方案

在上海市大数据中心的落地实战

基于星环数据云平台 TDC 为上海市大数据中心建设了上海市数据共享替换平台,上海市数据共享替换平台整体上蕴含市级数据共享替换子系统(含数据交换子系统、数据服务子系统、数据集成子系统等)、市级数据湖、市级数据库、市级数据治理子系统、市级数据品质管理子系统等业务模块。其中:数据交换子系统实现数据交换引擎、对立调度引擎、工作治理、数据桥接等性能;市级数据湖汇聚“四大库”、“市级统建零碎”、“各市级委办零碎”、“各行政区零碎”的通过初始治理的原始数据;数据集成子系统实现对数据湖数据的存储管理、共享与替换,推送数据到治理平台,并建设与市级数据库的连贯;数据治理子系统与数据品质管理子系统实现数据元治理与数据品质治理;市级数据库次要用于寄存通过一系列荡涤、转换、加载、治理步骤后的高质量的政务数据资源,其数据起源次要来自数据湖;数据服务子系统次要提供市级数据库中数据对外的服务公布与利用。

基于星环 TDC 建设的市级数据湖、市级数据库,撑持“一网通办”、“市民主页”、随申码等数据服务。疫情期间,基于TDC一周内上线随申码,日均查问次数峰值达715 w,上线仅四个半月,亮码总次数达到10 亿+。

目前,星环科技新一代智能大数据云平台 Transwarp Data Cloud(TDC)曾经在泛滥行业有成熟的全方位解决方案落地,满足了各种数据处理场景的需要,实现了企业数据与利用的生态化建设。将来星环将在数据云畛域继续深耕,助力企业一直晋升大数据能力,引领企业数字化转型降级浪潮。