Tagged: 大数据

腾讯神盾联邦计算平台带你翻越数据合作的重重大山 0

腾讯神盾联邦计算平台带你翻越数据合作的重重大山

大数据及人工智能飞速发展的今天,法律法规和信任问题严重阻碍了企业之间的数据流通,数据孤岛问题像一只无形的手挡在了企业之间,因为缺乏有价值的数据合作,各行业用户获取成本居高不下。为了满足企业间数据安全共享、释放数据价值,助力业务创新,腾讯“神盾-联邦计算”平台应运而生!

ClickHouse入门实践副本与分片 0

ClickHouse入门实践副本与分片

集群是副本和分片的基础,它将ClickHouse的服务拓扑由单节点延伸到多个节点,但它并不像Hadoop生态的某些系统那样,要求所有节点组成一个单一的大集群。ClickHouse的集群配置非常灵活,用户既可以将所有节点组成一个单一集群,也可以按照业务的诉求,把节点划分为多个小的集群。在每个小的集群区域之间,它们的节点、分…

ClickHouse入门实践表引擎 0

ClickHouse入门实践表引擎

目前在ClickHouse中,按照特点可以将表引擎大致分成6个系列,分别是合并树、外部存储、内存、文件、接口和其他,每一个系列的表引擎都有着独自的特点与使用场景。在它们之中,最为核心的当属MergeTree系列,因为它们拥有最为强大的性能和最广泛的使用场合。

ClickHouse入门实践MergeTree原理解析 0

ClickHouse入门实践MergeTree原理解析

表引擎是ClickHouse设计实现中的一大特色。可以说,是表引擎决定了一张数据表最终的“性格”,比如数据表拥有何种特性、数据以何种形式被存储以及如何被加载。ClickHouse拥有非常庞大的表引擎体系,截至本书完成时,其共拥有合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中,又属合并树…

ClickHouse入门实践数据字典 0

ClickHouse入门实践数据字典

数据字典是ClickHouse提供的一种非常简单、实用的存储媒介,它以键值和属性映射的形式定义数据。字典中的数据会主动或者被动(数据是在ClickHouse启动时主动加载还是在首次查询时惰性加载由参数设置决定)加载到内存,并支持动态更新。由于字典数据常驻内存的特性,所以它非常适合保存常量或经常使用的维度表数据,以避…

ClickHouse入门实践安装与部署 0

ClickHouse入门实践安装与部署

ClickHouse支持运行在主流64位CPU架构(X86、AArch和PowerPC)的Linux操作系统之上,可以通过源码编译、预编译压缩包、Docker镜像和RPM等多种方法进行安装。由于篇幅有限,本节着重讲解离线RPM的安装方法。更多的安装方法请参阅官方手册,此处不再赘述。

赵强老师什么是Spark-SQL 0

赵强老师什么是Spark-SQL

为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。

魔盒大数据协作平台是如何实现离线计算任务的工作流调度 0

魔盒大数据协作平台是如何实现离线计算任务的工作流调度

魔盒是禧云自研的大数据开发协作平台,前一篇介绍了魔盒在离线任务打包过程中怎么提高RabbitMQ消费速度; 数据开发人员通过魔盒不仅可以很方便的进行离线任务的打包、测试、上线,还可以方便的设置离线任务的串行、并行工作流调度; 本文以创建一个需要依赖多个并行job的工作流为例,来介绍魔盒集成 Azkaban实现离线任务…

个推成立西湖数据智能研究院打造中国数据智能研究领域领头雁 0

个推成立西湖数据智能研究院打造中国数据智能研究领域领头雁

近日,国内专业数据智能A股上市公司每日互动(个推)成立了“西湖数据智能研究院”。该研究院将为构建新时代数据智能创新大生态,加快数字经济与实体经济融合打造“超级大脑”。在西溪论数2020数据智能高峰论坛上,举行了西湖数据智能研究院”的发布与授牌仪式。。

万亿级数据如何高效进行数据治理 0

万亿级数据如何高效进行数据治理

在数据智能时代,对企业而言,“数据驱动业务”或者“数据即是业务”的理念逐渐成为业界的一种共识。然而,数据孤岛、数据标准不统一等问题在一定程度上阻碍了数据资产价值的最大化体现。个推作为专业的数据智能服务商,在数据治理方面有着丰富的实践,旨在帮助提升效率、节省成本、获取数据资产价值。