spark - 第18页 - 乐趣区

无分类 在-Apache-Spark-中利用-HyperLogLog-函数实现高级分析

预聚合是高性能分析中的常用技术，例如，每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合，被降低到1000万条访问统计，这样就能降低1000倍的数据处理量，从而在查询时大幅减少计算量，提升响应速度…

Spark系列文章（三）:搭建Spark开发环境IDEA 作者：studytime原文：[链接] 一、创建maven工程二、设置groupId和artifactId 三、设置工程目录四、构建完成五、上传项目至github {代码…} 出现以下问题: 主要原…

Spark 中所有 transformation 算子是通过分发到多个节点上的并行任务实现运行并行化的。当将一个自定义函数传递给 Spark 算子时（比如map或reduce）,该函数所包含的变量会通过副本方式传播到远程节点上。但所有针…

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。

Spark系列文章（二）:Spark伪分布式安装作者：studytime原文：[链接] 下载 Spark 安装包官网下载 http://spark.apache.org/downloads.html 安装前准备 Java8 已安装 hadoop2.7.5 已安装修改 Hadoop 配置文件 …

spark 是高性能 DAG 计算引擎，一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的 MapReduce 计…

在人工智能领域存在这样的现象，很多用户有人工智能的需求，但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺，但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。

执行hive统计sql即可这边使用COUNT(1)和COUNT(*)都不起作用，统计出来是0.只能使用COUNT(字段)。应该跟映射机制有关系。 SELECT COUNT(ID) FROM LJKTEST;

HBase二级索引方案 [TOC] 使用HBase Coprocessor方案测试案例需求：在原表LJK_TEST上，将mycf:name作为二级索引。第一步创建一张索引表 create ‘INDEX_LJK_TEST’,’mycf’ 第二步写代码 {代码…} 第三步将jar…

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己…