spark - 第21页 - 乐趣区

无分类 利用spark进行机器学习时模型序列化存储到hive解决方案

机器学习模型的训练和预测经常是在不同的时间点进行，在工程实现中，一般训练和预测都是在不同的子工程里面进行，训练子工程训练模型后存储到hive，之后预测子工程项目再将模型重hive中load出来进行预测

hive中shuffle的优化压缩压缩可以使磁盘上存储的数据量变小，通过降低I/O来提高查询速度。对hive产生的一系列MR中间过程启用压缩 {代码…} 对最终输出结果压缩（写到hdfs、本地磁盘的文件） {代码…}

如果问 mapreduce 和 spark 什么关系，或者说有什么共同属性，你可能会回答他们都是大数据处理引擎。如果问 spark 与 tensorflow 呢，就可能有点迷糊，这俩关注的领域不太一样啊。但是再问 spark 与 MPI 呢？这个…

数据倾斜是在大数据计算中常见的问题，用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况,这种情况是我们不能接受的,这也违背了并行计算的初…

spark和map-reduce(有时候hadoop会指这个，我还是叫hadoop是个整体设计)，flink这三个都是并行计算的方式。map-reduce只支持批处理，另外两个都支持。官方：batch是map-reduce的110倍，支持SQL and DataFrames, M…

作者：郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC，Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年，先后专注在安全，存储和计算领域。之前在 Intel，目前转战阿里云上，致力于提供更…

<?xml version=”1.0″ encoding=”UTF-8″?><project xmlns=”http://maven.apache.org/POM/4.0.0″

scala常用操作版本信息python3.7pyspark2.4.0 {代码…}

TiDB 是一款定位于在线事务处理/在线分析处理的融合型数据库产品，实现了一键水平伸缩，强一致性的多副本数据安全，分布式事务，实时 OLAP 等重要特性。TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品…

复制hdp spark client的spark-env.sh,spark-defaults.conf配置到新spark的conf目录