无分类 在-Apache-Spark-中利用-HyperLogLog-函数实现高级分析 预聚合是高性能分析中的常用技术,例如,每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合,被降低到1000万条访问统计,这样就能降低1000倍的数据处理量,从而在查询时大幅减少计算量,提升响应速度…
无分类 Spark系列文章三搭建Spark开发环境IDEA Spark系列文章(三):搭建Spark开发环境IDEA 作者:studytime原文:[链接] 一、创建maven工程 二、设置groupId和artifactId 三、设置工程目录 四、构建完成 五、上传项目至github {代码…} 出现以下问题: 主要原…
无分类 Spark系列文章六Spark的共享变量 Spark 中所有 transformation 算子是通过分发到多个节点上的并行任务实现运行并行化的。当将一个自定义函数传递给 Spark 算子时(比如map或reduce),该函数所包含的变量会通过副本方式传播到远程节点上。但所有针…
无分类 Spark系列文章四Spark之RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
无分类 Spark系列文章二Spark伪分布式安装 Spark系列文章(二):Spark伪分布式安装 作者:studytime原文:[链接] 下载 Spark 安装包 官网下载 http://spark.apache.org/downloads.html 安装前准备 Java8 已安装 hadoop2.7.5 已安装 修改 Hadoop 配置文件 …
无分类 Spark系列文章一Spark初识 spark 是高性能 DAG 计算引擎,一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的 MapReduce 计…
无分类 5分钟在PAI算法市场发布自定义算法 在人工智能领域存在这样的现象,很多用户有人工智能的需求,但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺,但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。
hive HBase统计 执行hive统计sql即可这边使用COUNT(1)和COUNT(*)都不起作用,统计出来是0.只能使用COUNT(字段)。应该跟映射机制有关系。 SELECT COUNT(ID) FROM LJKTEST;
无分类 HBase二级索引方案 HBase二级索引方案 [TOC] 使用HBase Coprocessor方案 测试案例需求:在原表LJK_TEST上,将mycf:name作为二级索引。 第一步 创建一张索引表 create ‘INDEX_LJK_TEST’,’mycf’ 第二步 写代码 {代码…} 第三步 将jar…
无分类 译用SQL统一所有一种有效的语法惯用的流和表管理方法 现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己…