-
PySpark 大数据分析实用指南
- 零、前言
- 一、装置 Pyspark 并设置您的开发环境
- 二、应用 RDD 将您的大数据带入 Spark 环境
- 三、Spark 笔记本的大数据清理和整顿
- 四、将数据汇总成有用的报告
- 五、弱小的 MLlib 探索性数据分析
- 六、应用 SparkSQL 构建大数据结构
- 七、转换和动作
- 八、不变设计
- 九、防止打乱和升高操作老本
- 十、以正确的格局保留数据
- 十一、应用 Spark 键 / 值利用编程接口
- 十二、测试 ApacheSpark 作业
- 十三、利用 Spark 图形接口
-
Spark 大规模机器学习
- 零、前言
- 一、Spark 数据分析简介
- 二、机器学习最佳实际
- 三、通过了解数据来了解问题
- 四、通过特色工程提取常识
- 五、监督和非监督学习示例
- 六、构建可扩大的机器学习管道
- 七、调整机器学习模型
- 八、调整您的机器学习模型
- 九、应用流和图数据的高级机器学习
- 十、配置和应用内部库
-
Spark SQL 学习手册
- 零、前言
- 一、Spark SQL 入门
- 二、应用 Spark SQL 解决结构化和半结构化数据
- 三、将 Spark SQL 用于数据摸索
- 四、将 Spark SQL 用于数据管理
- 五、在流式利用中应用 Spark SQL
- 六、Spark SQL 在机器学习利用中的利用
- 七、在图利用中应用 Spark SQL
- 八、应用 Spark SQL 和 Spark
- 九、应用 Spark SQL 开发利用
- 十、在深度学习利用中应用 Spark SQL
- 十一、针对性能调整 Spark SQL 组件
- 十二、大规模利用架构中的 Spark SQL
-
精通 Spark 2.x 机器学习
- 零、前言
- 一、大规模机器学习和 Spark 导论
- 二、探测暗物质——希格斯玻色子粒子
- 三、多类分类的集成办法
- 四、应用自然语言解决和 Spark 流预测电影评论
- 五、用于预测和聚类的 word2vec
- 六、从点击流数据中提取模式
- 七、将 GraphX 用于图剖析
- 八、贷款俱乐部的贷款预测
-
精通 Spark 数据迷信
- 零、前言
- 一、大数据迷信生态系统
- 二、数据采集
- 三、输出格局和模式
- 四、探索性数据分析
- 五、Spark 地理分析
- 六、基于链接抓取内部数据
- 七、构建社区
- 八、构建举荐零碎
- 九、新闻词典和实时标签零碎
- 十、故事反复和渐变
- 十一、基于情感剖析的异样检测
- 十二、趋势演算
- 十三、数据安全
- 十四、可扩大算法
-
PySpark 秘籍
- 零、前言
- 一、装置和配置 Spark
- 二、应用关系数据库形象数据
- 三、应用数据帧形象数据
- 四、为建模筹备数据
- 五、基于 MLlib 的机器学习
- 六、应用最大似然模块的机器学习
- 七、应用 PySpark 的结构化流
- 八、图框架——应用 PySpark 的图论
-
Scala 和 Spark 大数据分析
- 零、前言
- 一、Scala 简介
- 二、面向对象的 Scala
- 三、函数式编程概念
- 四、汇合 API
- 五、应答大数据——Spark 来了
- 六、开始应用 Spark-REPL 和 RDD
- 七、RDD 非凡动作
- 八、小型构造简介——Spark SQL
- 九、传送我吧,史考提——Spark 流
- 十、一切都是连通的——GraphX
- 十一、学习机器学习——Spark MLlib 和 Spark ML
- 十二、高级机器学习最佳实际
- 十三、我叫贝叶斯,奢侈的贝叶斯
- 十四、是时候整顿一下了——应用 Spark MLlib 对你的数据聚类
- 十五、应用 SparkML 的文本剖析
- 十六、Spark 调优
- 十七、该走向集群了——在集群上部署 Spark
- 十八、Spark 的测试和调试
- 十九、PySpark 和 SparkR
- 二十、应用 Alluxio 减速 Spark
- 二十一、ApacheZepplin 交互式数据分析
-
Spark2 初学者手册
- 零、前言
- 一、Spark 根底
- 二、Spark 编程模型
- 三、Spark SQL
- 四、应用 R 的 Spark 编程
- 五、Python 和 Spark 数据分析
- 六、Spark 流解决
- 七、Spark 机器学习
- 八、Spark 图解决
- 九、设计 Spark 利用
-
Spark2 数据处理和实时剖析
- 零、前言
- 一、ApacheSpark V2 的首次尝试和新进展
- 二、ApacheSpark 流
- 三、结构化流
- 四、Apache Spark MLlib
- 五、ApacheSparkML
- 六、Apache 零碎
- 七、Apache Spark GraphX
- 八、Spark 调优
- 九、Spark 的测试和调试
- 十、基于 Scala 的 Spark 实用机器学习
- 十一、Spark 的机器学习三大数据火枪手——完满联合
- 十二、实现强壮机器学习零碎的通用办法
- 十三、能够随 Spark 扩大的举荐引擎
- 十四、基于 Apache Spark 2.0 的无监督聚类
- 十五、应用 Spark 2.0 ML 库实现文本剖析
- 十六、Spark 流和机器学习库
-
Spark 2.x 机器学习秘籍
- 零、前言
- 一、基于 Scala 的 Spark 实用机器学习
- 二、Spark 机器学习的线性代数
- 三、Spark 的机器学习三大数据火枪手——完满联合
- 四、实现强壮机器学习零碎的通用办法
- 五、Spark 2.0 中回归和分类的实用机器学习——第一局部
- 六、Spark 2.0 中回归和分类的实用机器学习——第二局部
- 七、可随 Spark 扩大的举荐引擎
- 八、基于 Apache Spark 2.0 的无监督聚类
- 九、优化——应用梯度降落下山
- 十、应用决策树和集成模型构建机器学习零碎
- 十一、大数据的高维咒骂
- 十二、应用 Spark 2.0 ML 库实现文本剖析
- 十三、Spark 流和机器学习库
-
Spark 深度学习秘籍
- 零、前言
- 一、为深度学习开发启动 Spark
- 二、在 Spark 中创立神经网络
- 三、卷积神经网络的痛点
- 四、循环神经网络的痛点
- 五、应用 SparkML 预测消防队呼叫
- 六、在生成网络中应用 LSTM
- 七、自然语言解决
- 八、基于 XGBoost 的房地产价值预测
- 九、应用 LSTM 预测苹果股票市场老本
- 十、基于深度卷积网络的人脸识别
- 十一、应用 Word2Vec 创立和可视化词向量
- 十二、应用 Keras 创立电影举荐引擎
- 十三、基于 SparkTensorFlow 的图像分类
-
应用 Storm 构建 Python 实时利用
- 零、前言
- 一、相熟 Storm
- 二、Storm 分析
- 三、Petrel 简介
- 四、拓扑示例——Twitter
- 五、应用 Redis 和 MongoDB 实现长久化
- 六、Storm 实战
- 七、附录 A:应用 Supervisord 治理 Storm
-
Python 数据迷信与机器学习实用手册
- 零、前言
- 一、开始
- 二、统计和概率温习,以及 Python 实际
- 三、Matplotlib 与高级概率概念
- 四、预测模型
- 五、应用 Python 的机器学习
- 六、举荐零碎
- 七、更多数据挖掘和机器学习技术
- 八、解决真实世界的数据
- 九、Apache Spark——对于大数据的机器学习
- 十、测试与实验设计
-
精通 Spark
- 零、前言
- 一、ApacheSpark
- 二、Apache Spark MLlib
- 三、Apache Spark 流
- 四、Spark SQL
- 五、Apache Spark GraphX
- 六、基于图的存储
- 七、应用 H2O 扩大 Spark
- 八、Spark 数据库
- 九、数据库可视化
-
精通 Storm
- 零、前言
- 一、实时处理和 Storm 介绍
- 二、Storm 部署、拓扑开发和拓扑选项
- 三、Storm 并行性和数据分区
- 四、Trident 简介
- 五、Trident 拓扑及其用处
- 六、Storm 调度器
- 七、Storm 集群监测
- 八、Storm 与 Kafka 集成
- 九、Storm 和 Hadoop 集成
- 十、Storm 与 Redis、Elasticsearch 和 HBase 集成
- 十一、应用 Storm 解决 Apache 日志
- 十二、Twitter 推文收集和机器学习
-
Spark 机器学习
- 零、前言
- 一、启动并运行 Spark
- 二、机器学习的数学
- 三、机器学习零碎的设计
- 四、应用 Spark 获取、解决和筹备数据
- 五、应用 Spark 构建举荐引擎
- 六、应用 Spark 构建分类模型
- 七、应用 Spark 建设回归模型
- 八、应用 Spark 构建聚类模型
- 九、基于 Spark 的降维办法
- 十、Spark 高级文本处理
- 十一、基于 Spark 流的实时机器学习
- 十二、面向 Spark ML 的流水线 API
-
大数据分析实战
- 零、前言
- 一、大还是不大
- 二、面向公众的大数据挖掘
- 三、剖析工具包
- 四、应用 Hadoop 的大数据
- 五、应用 NoSQL 的大数据挖掘
- 六、大数据分析的 Spark
- 七、机器学习概念导论
- 八、深刻机器学习
- 九、企业数据迷信
- 十、对于大数据的结束语
- 十一、内部数据迷信资源
-
Spark 秘籍
- 零、前言
- 一、Apache Spark 入门
- 二、应用 Spark 开发利用
- 三、内部数据源
- 四、Spark SQL
- 五、Spark 流
- 六、应用 MLlib 的机器学习入门
- 七、基于 MLlib 的回归监督学习
- 八、基于 MLlib 的分类监督学习
- 九、应用 MLlib 的无监督学习
- 十、举荐零碎
- 十一、应用 GraphX 的图解决
- 十二、性能优化和性能调优
-
面向 Python 开发者的 Spark
- 零、前言
- 一、建设 Spark 虚拟环境
- 二、应用 Spark 构建批量和流式利用
- 三、应用 Spark 解决数据
- 四、应用 Spark 从数据中学习
- 五、应用 Spark 流式传输实时数据
- 六、可视化洞察和趋势
-
Storm 蓝图
- 零、前言
- 一、分布式单词计数
- 二、配置 Storm 集群
- 三、Trident 拓扑和传感器数据
- 四、实时趋势剖析
- 五、实时图剖析
- 六、人工智能
- 七、为金融剖析整合 Druid
- 八、自然语言解决
- 九、在 Hadoop 上为广告剖析部署 Storm
- 十、云中的 Storm
-
Flink 学习手册
- 零、前言
- 一、ApacheFlink 简介
- 二、应用数据流 API 的数据处理
- 三、应用批处理 API 的数据处理
- 四、应用表格 API 的数据处理
- 五、简单事件处理
- 六、应用 FlinkML 的机器学习
- 七、Flink 图利用编程接口——Gelly
- 八、基于 Flink 和 Hadoop 的分布式数据处理
- 九、在云上部署 Flink
- 十、最佳实际
-
Kafka 学习手册中文第二版
- 零、前言
- 一、Kafka 简介
- 二、建设 Kafka 集群
- 三、Kafka 设计
- 四、编写生产者
- 五、与消费者通信
- 六、Kafka 集成
- 七、Kafka 的工具
-
Storm 和 Cassandra 实时剖析
- 零、前言
- 一、让咱们理解 Storm
- 二、开始应用您的第一个拓扑
- 三、通过示例理解 Storm 外部
- 四、集群模式中的 Storm
- 五、Storm 高可用性和故障转移
- 六、给 Storm 增加 NoSQL 长久化
- 七、Cassandra 分区、高可用性和一致性
- 八、Cassandra 治理和保护
- 九、Storm 治理和保护
- 十、Storm 中的高级概念
- 十一、分布式缓存和 Storm 核心平台
- 十二、附录 a:测验答案
-
Spark 数据迷信
- 零、前言
- 一、大数据和数据迷信简介
- 二、Spark 编程模型
- 三、数据帧简介
- 四、对立数据拜访
- 五、Spark 数据分析
- 六、机器学习
- 七、应用 SparkR 扩大 Spark
- 八、剖析非结构化数据
- 九、可视化大数据
- 十、把它们放在一起
- 十一、构建数据迷信利用
下载
Docker
docker pull apachecn0/apachecn-bigdata-zh
docker run -tid -p <port>:80 apachecn0/apachecn-bigdata-zh
# 拜访 http://localhost:{port}
PYPI
pip install apachecn-bigdata-zh
apachecn-bigdata-zh <port>
# 拜访 http://localhost:{port}
NPM
npm install -g apachecn-bigdata-zh
apachecn-bigdata-zh <port>
# 拜访 http://localhost:{port}
奉献指南
本我的项目须要校对,欢送大家提交 Pull Request。
请您怯懦地去翻译和改良翻译。尽管咱们谋求卓越,但咱们并不要求您做到美中不足,因而请不要放心因为翻译上犯错——在大部分状况下,咱们的服务器曾经记录所有的翻译,因而您不用放心会因为您的失误受到无法挽回的毁坏。(改编自维基百科)
组织介绍
拜访咱们的主页。
资助咱们
通过平台自带的打赏性能,或点击这里。