大数据 联邦学习标准发布-百度安全参与制定 【导读】:2020年7月9日,对于联邦学习的个人规范—《基于联邦学习的数据流通产品技术要求与测试方法》首次公布,百度作为次要参加拟订单位参加了规范的制订及公布。
大数据 腾讯神盾联邦计算平台带你翻越数据合作的重重大山 大数据及人工智能飞速发展的今天,法律法规和信任问题严重阻碍了企业之间的数据流通,数据孤岛问题像一只无形的手挡在了企业之间,因为缺乏有价值的数据合作,各行业用户获取成本居高不下。为了满足企业间数据安全共享、释放数据价值,助力业务创新,腾讯“神盾-联邦计算”平台应运而生!
大数据 ClickHouse入门实践副本与分片 集群是副本和分片的基础,它将ClickHouse的服务拓扑由单节点延伸到多个节点,但它并不像Hadoop生态的某些系统那样,要求所有节点组成一个单一的大集群。ClickHouse的集群配置非常灵活,用户既可以将所有节点组成一个单一集群,也可以按照业务的诉求,把节点划分为多个小的集群。在每个小的集群区域之间,它们的节点、分…
大数据 ClickHouse入门实践表引擎 目前在ClickHouse中,按照特点可以将表引擎大致分成6个系列,分别是合并树、外部存储、内存、文件、接口和其他,每一个系列的表引擎都有着独自的特点与使用场景。在它们之中,最为核心的当属MergeTree系列,因为它们拥有最为强大的性能和最广泛的使用场合。
大数据 ClickHouse入门实践MergeTree原理解析 表引擎是ClickHouse设计实现中的一大特色。可以说,是表引擎决定了一张数据表最终的“性格”,比如数据表拥有何种特性、数据以何种形式被存储以及如何被加载。ClickHouse拥有非常庞大的表引擎体系,截至本书完成时,其共拥有合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中,又属合并树…
大数据 ClickHouse入门实践数据字典 数据字典是ClickHouse提供的一种非常简单、实用的存储媒介,它以键值和属性映射的形式定义数据。字典中的数据会主动或者被动(数据是在ClickHouse启动时主动加载还是在首次查询时惰性加载由参数设置决定)加载到内存,并支持动态更新。由于字典数据常驻内存的特性,所以它非常适合保存常量或经常使用的维度表数据,以避…
大数据 ClickHouse入门实践安装与部署 ClickHouse支持运行在主流64位CPU架构(X86、AArch和PowerPC)的Linux操作系统之上,可以通过源码编译、预编译压缩包、Docker镜像和RPM等多种方法进行安装。由于篇幅有限,本节着重讲解离线RPM的安装方法。更多的安装方法请参阅官方手册,此处不再赘述。
大数据 赵强老师什么是Spark-SQL 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。
大数据 魔盒大数据协作平台是如何实现离线计算任务的工作流调度 魔盒是禧云自研的大数据开发协作平台,前一篇介绍了魔盒在离线任务打包过程中怎么提高RabbitMQ消费速度; 数据开发人员通过魔盒不仅可以很方便的进行离线任务的打包、测试、上线,还可以方便的设置离线任务的串行、并行工作流调度; 本文以创建一个需要依赖多个并行job的工作流为例,来介绍魔盒集成 Azkaban实现离线任务…
大数据 个推成立西湖数据智能研究院打造中国数据智能研究领域领头雁 近日,国内专业数据智能A股上市公司每日互动(个推)成立了“西湖数据智能研究院”。该研究院将为构建新时代数据智能创新大生态,加快数字经济与实体经济融合打造“超级大脑”。在西溪论数2020数据智能高峰论坛上,举行了西湖数据智能研究院”的发布与授牌仪式。。