极速执行器: 高效的执行器,比传统数仓 /MPP 快 5 -10 倍,比 Hadoop SQL 引擎要快 5 -30 倍。
私有云和公有云部署:反对亚马逊和阿里云等私有云平台,同时能够反对支流 PaaS 云平台(比方 Kubernetes 等)和 Docker 部署。
对规范的欠缺反对:ANSI SQL 规范,OLAP 扩大,规范 JDBC/ODBC,比 Hadoop SQL 引擎都要欠缺。
具备十分成熟的并行优化器。优化器是并行 SQL 引擎的重要组成部分,对性能影响很大,尤其是对简单查问。
反对 ACID 事务个性:这是很多现有基于 Hadoop 的 SQL 引擎做不到的,对保证数据一致性很重要。能够无效缩小开发及运维人员的累赘。
动静数据流引擎:基于 UDP 的高速互联网络。
弹性调度执行:能够依据查问大小来决定执行查问应用的节点及 Segment 个数。
反对多种分区办法及多级分区:反对 List 分区和 Range 分区。分区表对性能有很大晋升作用,如果用户只想拜访最近一个月的热数据,查问只须要扫描最近一个月数据所在分区。
反对多种压缩办法:snappy,gzip,zlib, zstd, lz4, RLE 等。
多种存储过程语言反对:python, c/c++, perl 等。
动静扩容:动静按需扩容,依照存储大小或者计算需要,秒级增加节点。
多级资源和负载治理:和内部资源管理器 YARN 集成;能够治理 CPU,Memory 资源等;反对多级资源队列;具备不便的 DDL 治理接口。
反对拜访任何 HDFS 及其他零碎的数据:各种 HDFS 格局(文本,ORC 等等)以及其余内部零碎(Hive 等),并且用户本人能够开发插件来拜访新的数据源。
原生的机器学习数据挖掘库 MADLib 反对:易于应用及高性能。
与 Hadoop 零碎无缝集成:存储、资源、装置部署、数据格式和拜访等。
欠缺的平安及权限治理:kerberos;数据库,表等各个级别的受权治理。
反对多种第三方工具:比方 Tableau,SAS,较新的 Apache Zeppelin 等。