分类: spark

关于spark:大数据计算技术秘史下篇

上周太可研究所(techinstitute)公布了大数据中的计算机技术(上),次要沿着 Spark 梳理了计算引擎技术的局部改革。明天,咱们将沿用上期的思路,持续回顾…

关于spark:Spark-SQL-Java基础

1、根底操作 {代码…} RDD、DataFrame和Dataset的关系及转换2、UDF函数标量函数 {代码…} 聚合函数弱类型 {代码…} 强类型 {代码…} {代码…} {代码…}

关于spark:Spark-Core基础知识

1、RDDResilient Distributed Dataset (RDD),弹性分布式数据集弹性是指什么?1、内存的弹性:内存与磁盘的主动切换2、容错的弹性:数据失落能够主动复原3、…

关于spark:SparkCeleborn更快更稳更弹性

Apache Spark 是广为风行的大数据处理引擎,它有很多应用场景: Spark SQL、批处理、流解决、MLLIB、GraphX 等。在所有组件下是对立的 RDD 形象,RDD 血统通过…

关于spark:SparkCeleborn更快更稳更弹性

摘要:本文整顿自阿里云 EMR Spark 团队的周克勇(一锤),在 Spark&DS Meetup 的分享。本篇内容次要分为三个局部:传统 Shuffle 的问题Apache Celeborn (In…

关于spark:Spark-在-KaiwuDB-中的应用与实践

(1)Spark 是用于大规模数据处理的对立剖析引擎;(2)运行速度快:Spark 应用先进的 DAG 执行引擎,以反对循环数据流与内存计算,基于内存的执行速度可比 H…

关于spark:Spark-在-KaiwuDB-中的应用与实践

当数据库面对大量数据简单 OLAP 查问时,性能呈现局限性,无奈满足用户 AP 方面的高性能要求。为此,KaiwuDB 推出了此项解决方案:借助 Spark 平台,交融了 K…