无分类 利用spark进行机器学习时模型序列化存储到hive解决方案 机器学习模型的训练和预测经常是在不同的时间点进行,在工程实现中,一般训练和预测都是在不同的子工程里面进行,训练子工程训练模型后存储到hive,之后预测子工程项目再将模型重hive中load出来进行预测
hadoop 王真催的面试题 hive中shuffle的优化 压缩压缩可以使磁盘上存储的数据量变小,通过降低I/O来提高查询速度。 对hive产生的一系列MR中间过程启用压缩 {代码…} 对最终输出结果压缩(写到hdfs、本地磁盘的文件) {代码…}
无分类 漫谈分布式计算框架 如果问 mapreduce 和 spark 什么关系,或者说有什么共同属性,你可能会回答他们都是大数据处理引擎。如果问 spark 与 tensorflow 呢,就可能有点迷糊,这俩关注的领域不太一样啊。但是再问 spark 与 MPI 呢?这个…
无分类 如何解决大数据计算中常见的数据倾斜问题 数据倾斜是在大数据计算中常见的问题,用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况,这种情况是我们不能接受的,这也违背了并行计算的初…
无分类 spark spark和map-reduce(有时候hadoop会指这个,我还是叫hadoop是个整体设计),flink这三个都是并行计算的方式。map-reduce只支持批处理,另外两个都支持。官方:batch是map-reduce的110倍,支持SQL and DataFrames, M…
java 浅谈-Spark-的多语言支持 作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,先后专注在安全,存储和计算领域。之前在 Intel,目前转战阿里云上,致力于提供更…
无分类 intellij idea 配置spark环境遇到的两个问题 <?xml version=”1.0″ encoding=”UTF-8″?><project xmlns=”http://maven.apache.org/POM/4.0.0″
无分类 优秀的数据工程师,怎么用 Spark 在 TiDB 上做 OLAP 分析 TiDB 是一款定位于在线事务处理/在线分析处理的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品…