关于存储:企业的数据存储处理与分析之道

59次阅读

共计 3849 个字符,预计需要花费 10 分钟才能阅读完成。

12 月 30 日,SelectDB 携手阿里云独特举办云数仓专场沙龙,在线上沙龙中,来自 SelectDB 和 阿里云的四位云计算领域专家,深刻数仓的倒退现状和将来趋势,联合企业级的实在场景落地案例,对技术和产品进行了具体的解读。

SelectDB Cloud 飞轮科技外围云产品介绍

来自 SelectDB 的云产品负责人姜国强总结了目前数据仓库倒退的需要与演进方向,他认为:“目前,咱们曾经来到了以云数仓为核心的古代数据栈时代,数据分析技术的交融倒退、云的规模化,能够解决老本问题、实时性问题;云的按需应用、弹性伸缩能够很好的解决传统湖仓并行时代下遗留的问题和挑战,例如运维压力大、资源老本高以及对实时性、效率的更高要求等。”

在这样的背景下,飞轮科技诞生,并基于 Apache Doris 研发了新一代云原生实时仓库 SelectDB Cloud。

在研发中,SelectDB 引入了组织、仓库、集群三种不同的概念,姜国强介绍:“在 SelectDB Cloud 的概念中,一个公司便代表着一个独立的组织,一个组织可能通过创立不同的仓库来服务不同的业务,不同仓库间的资源和数据互相隔离。而一个仓库能够蕴含多个集群,它们共享底层的数据,不同集群能够满足不同的工作负载,非常不便。”通过 SelectDB Cloud 的产品架构图,姜国强展现了 SelectDB Cloud 的研发思路和理念。基于云原生架构设计的 SelectDB Cloud 充沛了利用云的翻新硬件和技术,反对按需应用,有限拓展,可能为企业带来多云统一的服务体验;另外,SelectDB Cloud 在存算拆散的架构下实现了弹性伸缩、负载拆散、低成本和安全可靠,并且可能达到业界一流的性能;同时,SelectDB Cloud 可能高度兼容大数据的生态,大大降低了开发的门槛。

姜国强示意:“在将来,团队会继续优化 SelectDB Cloud 的产品设计,并逐步将其打造成一款齐全的 SaaS 化产品,为企业带来更加便捷的数据分析服务。”

SelectDB Cloud 技术内核与解决方案

在演讲中,SelectDB 的技术副总裁肖康深刻解析了 SelectDB Cloud 五大个性——极致性价比、交融对立、简略易用、企业个性、开源凋谢的技术实现;同时,他还为大家具体论述了 SelectDB 站在业务视角公布的四大解决方案,并通过与传统计划的比照展现了实在利用场景下 SelectDB Cloud 计划带来的晋升与播种。

在介绍 SelectDB 产品特色时,肖康示意:“对性能的谋求是 SelectDB 从一而终的谋求。在性能方面,SelectDB 获得了不俗的问题。”从数据来看,SelectDB Cloud 在单表聚合场景和多表关联场景下都体现出了优于同类知名品牌的问题。——

  • 单表聚合场景性能:SelectDB Cloud 是 ClickHouse 的 3.4 倍;Presto 的 92 倍;Snowflake 的 6 倍。
  • 多表关联场景:SelectDB Cloud 是 Redshift 的 1.5 倍;ClickHouse 的 49 倍;Snowflake 的 2.5 倍。

综合比照之下,SelectDB 的性能可达到同类产品的 1.5 倍甚至更高。而在过来的一年中,SelectDB 通过其商业化产品和开源版本服务了国内来自不同行业的企业用户,包含海程邦达、云积分、360 数科、橙联股份、同程数科等,并为他们别离带来了超 94%—99% 的极致性能晋升体验。

同时,基于翻新研发的存算拆散架构、弹性扩容机制以及数据对象存储的形式,SelectDB Cloud 实现了超低资源老本的劣势,通过以往的用户实际数据显示,SelectDB Cloud 的老本仅为自有部署老本的 1 /2-1/5,老本升高可达 50% 以上。在一组实在的客户场景中(3 个节点 5TB 数据,早晚需扩容 2 节点 4 小时),SelectDB 展现出了它极致的老本劣势:比照之下,客户采纳 EMR 托管 Doris 和购买 ECS 自建 Doris 的两种形式,老本耗费别离为为 40 万 / 年及 36 万 / 年,而采纳 SelectDB Cloud 老本仅需 17 万 / 年。

目前,SelectDB Cloud 已通过阿里云平台上线,为用户提供多样化的弹性计费模式,反对按量领取、月包、年包混合的灵便搭配应用。

在解决方案上,SelectDB 面向外部的现代化数据平台、报表与剖析、用户画像与行为剖析和日志存储与剖析四个场景推出现代化的计划,在各个场景均获得了优于原计划的成果晋升。

四大解决方案具体收益:

  • 面向外部的现代化数据平台:复杂性升高,治理应用老本升高;平台的经济性晋升,提供了极高的性价比;多云可用。
  • 面向客户的报表与剖析:报表场景实现上万高并发;查问速度快,可能做到毫秒级别响应;实现数据流延时低,数据可见性最快能够做到秒级别;数据牢靠,不丢不重。基于 SelectDB Cloud 的计划,某用户的广告业务场景,实现了上万 QPS 的高并发,查问延时 99 分位 200ms 以内,每天新增数十亿条记录。
  • 用户画像与行为剖析解决方案:通过实际得出,SelectDB Cloud 能够做到行为剖析在 3000 亿沉闷数据的场景下,均匀提早小于 10s,P95 提早在 20s 左右;用户画像在千亿数据下实现 10 个标签秒级人群预估和圈选,100 个标签 10 秒级。
  • 日志存储和剖析解决方案:SelectDB Cloud 计划的综合能力体现非常优异,相比传统的计划可能达到 4.2 倍的写入性能晋升,只占用 1 / 5 的磁盘空间,2.3 倍的查问性能晋升。

阿里云 OSS 企业级数据湖的构建之道

阿里云高级产品专家马骏(其冀)示意,阿里云过来几年反对了上万家客户的云上数据湖和数仓剖析业务,在这个过程中,对象存储 OSS 始终紧跟技术倒退和客户需要,从数据湖 1.0 逐步演进到数据湖 3.0,构建了文件对象死记硬背、冷热数据智能分层和云上云下数据互通的能力,进而满足如下几种外围诉求:

  • 存算拆散:资源弹性扩大,按量付费
  • 一源多用:撑持多业务对数据同时查问剖析
  • 安全可靠:数据不丢不错,权限管控和数据治理
  • 灵便剖析:反对多元化计算引擎
  • 多级存储:通过生命周期治理来优化老本

具体来讲,如下的几大能力,可最大限度的满足云原生数仓或数据湖的构建,让客户无需锁定存储和计算资源,升高架构革新和底层资源的老本:

实现传统存算交融架构革新成存算拆散架构:阿里云 OSS 构建了全面兼容 Hadoop 生态的能力,全兼容 HDFS 的协定接入,基于 Hadoop 的客户无需做革新适配,即可无缝迁徙到 OSS 上。同时 OSS 将单个命名空间晋升到 50 亿超大规模文件,10 万 QPS 的元数据操作,满足以后乃至将来三到五年的性能需求。这样就能够放弃架构的前瞻性,无需放心业务分区和性能扩大问题。

OSS 可实现多协定文件的拜访,进步小文件解决性能:OSS 同高性能文件存储 CPFS 买通,在面相 AI 和 HPC 的场景下,晋升小文件的解决性能。客户既能享受对象存储的低成本,同时面向高性能需要能够利用 CPFS 来承载,提供百 TB280 万 IOPS 的性能。该能力可升高 95% 的计算等待时间,实现 POSIX/NFS 多协定的反对。

实现数据智能分层,老本优化能够达到 90%:OSS 提供 4 种类型的存储类型,别离是标准型、低频拜访型、归档型和冷归档型,笼罩数据全生命周期,用户能够依据按最初批改工夫和最初拜访工夫制订生命周期策略,冷归档可提供最高分钟级别的取回能力。

多层级全场景的数据保护,保证数据不丢不错:作为存储的根底能力,提供了多种可靠性与可用性技术,如版本控制,本地冗余,同城冗余,跨区域复制,全链路校验与纠删码,进而实现 99.995% 的可用性 SLA 和 12 个 9 的可靠性。

阿里云 OSS-HDFS 技术与能力解析

阿里云资深技术专家梁明旭(旭一)就全托管的 OSS-HDFS 服务架构做了具体的介绍。该服务是在 OSS 规范存储服务之上建设了一个高可用的元数据服务,其可靠性同 OSS 存储自身相媲美;同时利用 Master 模块实现了多租户接入;另外因为在 OSS 接入层之下构建,因而可提供服务端的状态,对用户下层利用通明;通过客户端将元数据操作和数据长久化操作进行拆散,从而使架构的扩展性失去保障;通过元数据加持可能和 HDFS 等文件系统的层级命名空间相匹配,能够更好的面相客户各种生态兼容。

OSS-HDFS 服务绝对友商的存储服务提供了更全面的 Hadoop 生态反对,包含 ACL、Chesksum、Trash 回收站主动清理、快照、Kerberos 与 Range 认证及平安、文件拼接等。这将大大降低客户从原先 Hdaoop 集群切换到 OSS-HDFS 的革新老本,最小化迁徙过程中的利用侵入。同时数仓场景中,反对语义和操作,拓展属性,目录原子性、毫秒级别 rename。而个别对象存储难以反对的 flush、sync、truncate 等操作均能够通过 OSS-HDFS 实现,这样只有客户的引擎反对 HDFS,就能完满适配。

相比于社区 HDFS,OSS 标准版就可能节俭 30% 的老本,如果综合应用 OSS 的分层能力,老本还能够大幅升高到 90%。在海量小文件超过 10 亿以上,社区版曾经无奈反对,但通过 OSS 仍然可能反对且性能没有大幅衰减。在规范场景下,如 ETL 也有很多性能晋升,在 40 万文件性能晋升超过 64%。

目前,SelectDB Cloud 已上线阿里云,通过与阿里云平台所提供的根底云服务能力深度适配,单方将独特为客户带来极致的大数据相干解决方案。

点击链接观看沙龙直播回放:https://yqh.aliyun.com/selectdb-salon

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0