阿里大数据产品体系是基于阿里云飞天平台上的数据处理服务。次要分为 阿里云大数据根底产品 和阿里云数加平台,其产品架构图如下所示:
一、阿里云大数据根底产品
1、云数据库——RDS(ApsaraDB for RDS 的简称)
- 稳固牢靠、可弹性伸缩的在线数据库服务
- 即开即用,DMS 可视化界面
- 兼容 MySQL,SQL server,PG 等关系型数据库
- 提供数据库在线扩容,备份回滚,性能监控及剖析等性能
- 只读实例和长期实例
劣势:
- 双机热备——秒级切换,服务可用性达 99.5%
- 平安防护——防 DDOS 攻打,SQL 注入正告,数据多重备份
- 简略易用——一键式数据迁徙,可视化治理操作
2、分布式关系型数据库——DRDS(Distributed Relational Database Service)
- 基于 RDS 的分布式数据存储和检索产品
- 程度拆分可平滑扩大
- 解决用户单 RDS 无奈撑持业务的苦难
- 升高用户应用分布式数据库的难度
劣势:
- 简略易用——兼容 MySQL(交互协定、SQL)
- 稳固牢靠——共享阿里组件
- 分布式——程度拆分,容量达到单节点百倍
- 可扩大——增减节点对利用简直无影响,高效数据迁徙
3、表格存储——TS(Table Store)
- 构建在阿里云飞天分布式系统上的 NoSQL 数据存储服务
- 海量结构化数据的存储和实时拜访
- 弹性资源预留
- 实时监控显示
劣势:
- 稳固——主动故障检测和复原,零碎可用性 99.9%
- 平安——用户级别的数据隔离、访问控制和权限治理,数据冗余备份
- 大规模——单表到百 TB 级数据存储
- 高性能——毫秒级别单行读写提早,十万级别 QPS
4、剖析型数据库——ADB(Analytic DB)
- 海量数据实时高并发在线剖析云计算平台
- 自在的计算和查问能力
- 高可用性和高安全性
- 全面兼容 MySQL 协定
劣势:
- 高度的计算自在——通过 SQL 进行灵便的多维分析、数据透视、数据筛选等
- 急速的响应工夫——毫秒级的千亿级数据透视,毫秒级的大表关联计算
- 简略的应用形式——规范 SQL, 反对规范 MySQL 协定,内置多种云平台数据的输入输出
- 丰盛的特点性能——高性能主动索引,海量数据的急速导出等
5、大数据计算服务——MaxCompute
- 针对 TP/BP 级数据、实时性要求不高的分布式解决能力
- 大数据运算能力
- 开箱即用
- 数据安全
劣势:
- 分布式——分布式集群架构,可灵便扩大
- 安全性——主动存储容错机制,所有计算都在沙箱进行
- 易用性——全面反对基于 SQL 的数据处理,提供规范 API, 高并发高吞吐量的数据上传下载
- 治理与受权——多用户治理协同剖析数据,多种形式对用户权限治理,灵便的数据访问控制决策
6、数据集成(Data Integration)
数据集成是阿里团体对外提供的稳固高效、弹性伸缩的数据同步平台,为阿里云大数据计算引擎提供的离线(批量)数据进出通道。
劣势:
- 多:反对数据源品种多,多样数据通道,齐全的数据传输方式,丰盛的数据处理插件;
- 快:高效的调用形式,强劲的传输速度,弱小的吞吐力;
- 好:强壮的传输通道,智能的谬误检测,主动的传输复原;
- 省:开箱即用,动态分配,弹性舒展,按需申请,按量付费;
7、对象存储(Object Storage Service,简称 OSS)
- 提供海量、平安、低成本、高牢靠的云存储服务;
- 即开即用,无限大空间的存储集群;
- 通过 API/SDK 接口或 OSS 迁徙工具不便将海量数据移入或移除;
- 存储对象操作具备原子性,强一致性;
劣势:
- 牢靠:服务可用性 99.99%,数据持久性 99.999999999%(9 个 9),多重备份,规模主动扩大;
- 平安:用户级别的资源隔离,异地容灾,企业级多层平安防护,多种受权机制;
- 低成本:多线 GBP 骨干网络,无带宽限度,上行流量收费;
- 多品种数据处理能力:图片解决、音视频转码、内容减速散发、鉴黄服务,归档服务等。
二、阿里云数加平台
阿里云数据产品均集成在数加平台,阿里云公共云数加平台的定位:一站式数据平台(集成包含从根底数据分析利用到大数据开发、调度、运维,到机器学习等);提供三层服务(底层计算、数据平台剖析工具、应用层服务)行业解决方案。
1、DataWorks(原 Data IDE)
数据工场 DataWorks(原大数据开发套件 Data IDE)是基于 MaxCompute 作为计算和存储引擎的用于工作流可视化开发和托管调度运维的海量数据离线加工剖析平台。
劣势:
- 业余:阿里多年 DW/BI 教训积淀,全链路解决方案,高效率低成本;
- 功能强大:集成式组件服务,多种异构数据源反对,多人协同代码开发,欠缺的版本治理,分钟、小时级调度、拖拽式数据分析与可视化算法建模;
- 大数据处理能力:完满交融 Max Compute,反对十万级任务的有序运行及治理。
2、Quick BI
提供海量数据实时在线剖析服务,反对拖拽式操作,提供了丰盛的可视化成果,能够轻松自如地实现数据分析,业务数据探查,报表制作等工作。
劣势:
- 门槛低:拖拽操作,简略易用;
- 性能强:多样的解决方案,丰盛的展示伎俩;
- 大数据处理能力:数据分析,数据处理能力弱小
3、机器学习 PAI
- 基于 MaxCompute、GPU 集群,反对 MR、MPI、SQL、BSP、SPARK 等计算类型;
- 内置阿里、蚂蚁多年积淀的分布式算法,反对百亿级数据量训练;
- WEB 界面,通过拖、拉、拽等形式即可实现简单数据挖掘流程;
劣势:
- 提供从数据预处理到模型评估的一站式平台服务,显著升高大数据算法建模门槛;
- 反对自定义算法和组件,灵便凋谢的个性化设置,极大地提高了建模效率;
- 提供丰盛的分布式算法,进步模型精度,助力海量数据中挖掘出业务价值。