乐趣区

关于大数据:ApacheCN-大数据译文集-20211206-更新

  • PySpark 大数据分析实用指南

    • 零、前言
    • 一、装置 Pyspark 并设置您的开发环境
    • 二、应用 RDD 将您的大数据带入 Spark 环境
    • 三、Spark 笔记本的大数据清理和整顿
    • 四、将数据汇总成有用的报告
    • 五、弱小的 MLlib 探索性数据分析
    • 六、应用 SparkSQL 构建大数据结构
    • 七、转换和动作
    • 八、不变设计
    • 九、防止打乱和升高操作老本
    • 十、以正确的格局保留数据
    • 十一、应用 Spark 键 / 值利用编程接口
    • 十二、测试 ApacheSpark 作业
    • 十三、利用 Spark 图形接口
  • Spark 大规模机器学习

    • 零、前言
    • 一、Spark 数据分析简介
    • 二、机器学习最佳实际
    • 三、通过了解数据来了解问题
    • 四、通过特色工程提取常识
    • 五、监督和非监督学习示例
    • 六、构建可扩大的机器学习管道
    • 七、调整机器学习模型
    • 八、调整您的机器学习模型
    • 九、应用流和图数据的高级机器学习
    • 十、配置和应用内部库
  • Spark SQL 学习手册

    • 零、前言
    • 一、Spark SQL 入门
    • 二、应用 Spark SQL 解决结构化和半结构化数据
    • 三、将 Spark SQL 用于数据摸索
    • 四、将 Spark SQL 用于数据管理
    • 五、在流式利用中应用 Spark SQL
    • 六、Spark SQL 在机器学习利用中的利用
    • 七、在图利用中应用 Spark SQL
    • 八、应用 Spark SQL 和 Spark
    • 九、应用 Spark SQL 开发利用
    • 十、在深度学习利用中应用 Spark SQL
    • 十一、针对性能调整 Spark SQL 组件
    • 十二、大规模利用架构中的 Spark SQL
  • 精通 Spark 2.x 机器学习

    • 零、前言
    • 一、大规模机器学习和 Spark 导论
    • 二、探测暗物质——希格斯玻色子粒子
    • 三、多类分类的集成办法
    • 四、应用自然语言解决和 Spark 流预测电影评论
    • 五、用于预测和聚类的 word2vec
    • 六、从点击流数据中提取模式
    • 七、将 GraphX 用于图剖析
    • 八、贷款俱乐部的贷款预测
  • 精通 Spark 数据迷信

    • 零、前言
    • 一、大数据迷信生态系统
    • 二、数据采集
    • 三、输出格局和模式
    • 四、探索性数据分析
    • 五、Spark 地理分析
    • 六、基于链接抓取内部数据
    • 七、构建社区
    • 八、构建举荐零碎
    • 九、新闻词典和实时标签零碎
    • 十、故事反复和渐变
    • 十一、基于情感剖析的异样检测
    • 十二、趋势演算
    • 十三、数据安全
    • 十四、可扩大算法
  • PySpark 秘籍

    • 零、前言
    • 一、装置和配置 Spark
    • 二、应用关系数据库形象数据
    • 三、应用数据帧形象数据
    • 四、为建模筹备数据
    • 五、基于 MLlib 的机器学习
    • 六、应用最大似然模块的机器学习
    • 七、应用 PySpark 的结构化流
    • 八、图框架——应用 PySpark 的图论
  • Scala 和 Spark 大数据分析

    • 零、前言
    • 一、Scala 简介
    • 二、面向对象的 Scala
    • 三、函数式编程概念
    • 四、汇合 API
    • 五、应答大数据——Spark 来了
    • 六、开始应用 Spark-REPL 和 RDD
    • 七、RDD 非凡动作
    • 八、小型构造简介——Spark SQL
    • 九、传送我吧,史考提——Spark 流
    • 十、一切都是连通的——GraphX
    • 十一、学习机器学习——Spark MLlib 和 Spark ML
    • 十二、高级机器学习最佳实际
    • 十三、我叫贝叶斯,奢侈的贝叶斯
    • 十四、是时候整顿一下了——应用 Spark MLlib 对你的数据聚类
    • 十五、应用 SparkML 的文本剖析
    • 十六、Spark 调优
    • 十七、该走向集群了——在集群上部署 Spark
    • 十八、Spark 的测试和调试
    • 十九、PySpark 和 SparkR
    • 二十、应用 Alluxio 减速 Spark
    • 二十一、ApacheZepplin 交互式数据分析
  • Spark2 初学者手册

    • 零、前言
    • 一、Spark 根底
    • 二、Spark 编程模型
    • 三、Spark SQL
    • 四、应用 R 的 Spark 编程
    • 五、Python 和 Spark 数据分析
    • 六、Spark 流解决
    • 七、Spark 机器学习
    • 八、Spark 图解决
    • 九、设计 Spark 利用
  • Spark2 数据处理和实时剖析

    • 零、前言
    • 一、ApacheSpark V2 的首次尝试和新进展
    • 二、ApacheSpark 流
    • 三、结构化流
    • 四、Apache Spark MLlib
    • 五、ApacheSparkML
    • 六、Apache 零碎
    • 七、Apache Spark GraphX
    • 八、Spark 调优
    • 九、Spark 的测试和调试
    • 十、基于 Scala 的 Spark 实用机器学习
    • 十一、Spark 的机器学习三大数据火枪手——完满联合
    • 十二、实现强壮机器学习零碎的通用办法
    • 十三、能够随 Spark 扩大的举荐引擎
    • 十四、基于 Apache Spark 2.0 的无监督聚类
    • 十五、应用 Spark 2.0 ML 库实现文本剖析
    • 十六、Spark 流和机器学习库
  • Spark 2.x 机器学习秘籍

    • 零、前言
    • 一、基于 Scala 的 Spark 实用机器学习
    • 二、Spark 机器学习的线性代数
    • 三、Spark 的机器学习三大数据火枪手——完满联合
    • 四、实现强壮机器学习零碎的通用办法
    • 五、Spark 2.0 中回归和分类的实用机器学习——第一局部
    • 六、Spark 2.0 中回归和分类的实用机器学习——第二局部
    • 七、可随 Spark 扩大的举荐引擎
    • 八、基于 Apache Spark 2.0 的无监督聚类
    • 九、优化——应用梯度降落下山
    • 十、应用决策树和集成模型构建机器学习零碎
    • 十一、大数据的高维咒骂
    • 十二、应用 Spark 2.0 ML 库实现文本剖析
    • 十三、Spark 流和机器学习库
  • Spark 深度学习秘籍

    • 零、前言
    • 一、为深度学习开发启动 Spark
    • 二、在 Spark 中创立神经网络
    • 三、卷积神经网络的痛点
    • 四、循环神经网络的痛点
    • 五、应用 SparkML 预测消防队呼叫
    • 六、在生成网络中应用 LSTM
    • 七、自然语言解决
    • 八、基于 XGBoost 的房地产价值预测
    • 九、应用 LSTM 预测苹果股票市场老本
    • 十、基于深度卷积网络的人脸识别
    • 十一、应用 Word2Vec 创立和可视化词向量
    • 十二、应用 Keras 创立电影举荐引擎
    • 十三、基于 SparkTensorFlow 的图像分类
  • 应用 Storm 构建 Python 实时利用

    • 零、前言
    • 一、相熟 Storm
    • 二、Storm 分析
    • 三、Petrel 简介
    • 四、拓扑示例——Twitter
    • 五、应用 Redis 和 MongoDB 实现长久化
    • 六、Storm 实战
    • 七、附录 A:应用 Supervisord 治理 Storm
  • Python 数据迷信与机器学习实用手册

    • 零、前言
    • 一、开始
    • 二、统计和概率温习,以及 Python 实际
    • 三、Matplotlib 与高级概率概念
    • 四、预测模型
    • 五、应用 Python 的机器学习
    • 六、举荐零碎
    • 七、更多数据挖掘和机器学习技术
    • 八、解决真实世界的数据
    • 九、Apache Spark——对于大数据的机器学习
    • 十、测试与实验设计
  • 精通 Spark

    • 零、前言
    • 一、ApacheSpark
    • 二、Apache Spark MLlib
    • 三、Apache Spark 流
    • 四、Spark SQL
    • 五、Apache Spark GraphX
    • 六、基于图的存储
    • 七、应用 H2O 扩大 Spark
    • 八、Spark 数据库
    • 九、数据库可视化
  • 精通 Storm

    • 零、前言
    • 一、实时处理和 Storm 介绍
    • 二、Storm 部署、拓扑开发和拓扑选项
    • 三、Storm 并行性和数据分区
    • 四、Trident 简介
    • 五、Trident 拓扑及其用处
    • 六、Storm 调度器
    • 七、Storm 集群监测
    • 八、Storm 与 Kafka 集成
    • 九、Storm 和 Hadoop 集成
    • 十、Storm 与 Redis、Elasticsearch 和 HBase 集成
    • 十一、应用 Storm 解决 Apache 日志
    • 十二、Twitter 推文收集和机器学习
  • Spark 机器学习

    • 零、前言
    • 一、启动并运行 Spark
    • 二、机器学习的数学
    • 三、机器学习零碎的设计
    • 四、应用 Spark 获取、解决和筹备数据
    • 五、应用 Spark 构建举荐引擎
    • 六、应用 Spark 构建分类模型
    • 七、应用 Spark 建设回归模型
    • 八、应用 Spark 构建聚类模型
    • 九、基于 Spark 的降维办法
    • 十、Spark 高级文本处理
    • 十一、基于 Spark 流的实时机器学习
    • 十二、面向 Spark ML 的流水线 API
  • 大数据分析实战

    • 零、前言
    • 一、大还是不大
    • 二、面向公众的大数据挖掘
    • 三、剖析工具包
    • 四、应用 Hadoop 的大数据
    • 五、应用 NoSQL 的大数据挖掘
    • 六、大数据分析的 Spark
    • 七、机器学习概念导论
    • 八、深刻机器学习
    • 九、企业数据迷信
    • 十、对于大数据的结束语
    • 十一、内部数据迷信资源
  • Spark 秘籍

    • 零、前言
    • 一、Apache Spark 入门
    • 二、应用 Spark 开发利用
    • 三、内部数据源
    • 四、Spark SQL
    • 五、Spark 流
    • 六、应用 MLlib 的机器学习入门
    • 七、基于 MLlib 的回归监督学习
    • 八、基于 MLlib 的分类监督学习
    • 九、应用 MLlib 的无监督学习
    • 十、举荐零碎
    • 十一、应用 GraphX 的图解决
    • 十二、性能优化和性能调优
  • 面向 Python 开发者的 Spark

    • 零、前言
    • 一、建设 Spark 虚拟环境
    • 二、应用 Spark 构建批量和流式利用
    • 三、应用 Spark 解决数据
    • 四、应用 Spark 从数据中学习
    • 五、应用 Spark 流式传输实时数据
    • 六、可视化洞察和趋势
  • Storm 蓝图

    • 零、前言
    • 一、分布式单词计数
    • 二、配置 Storm 集群
    • 三、Trident 拓扑和传感器数据
    • 四、实时趋势剖析
    • 五、实时图剖析
    • 六、人工智能
    • 七、为金融剖析整合 Druid
    • 八、自然语言解决
    • 九、在 Hadoop 上为广告剖析部署 Storm
    • 十、云中的 Storm
  • Flink 学习手册

    • 零、前言
    • 一、ApacheFlink 简介
    • 二、应用数据流 API 的数据处理
    • 三、应用批处理 API 的数据处理
    • 四、应用表格 API 的数据处理
    • 五、简单事件处理
    • 六、应用 FlinkML 的机器学习
    • 七、Flink 图利用编程接口——Gelly
    • 八、基于 Flink 和 Hadoop 的分布式数据处理
    • 九、在云上部署 Flink
    • 十、最佳实际
  • Kafka 学习手册中文第二版

    • 零、前言
    • 一、Kafka 简介
    • 二、建设 Kafka 集群
    • 三、Kafka 设计
    • 四、编写生产者
    • 五、与消费者通信
    • 六、Kafka 集成
    • 七、Kafka 的工具
  • Storm 和 Cassandra 实时剖析

    • 零、前言
    • 一、让咱们理解 Storm
    • 二、开始应用您的第一个拓扑
    • 三、通过示例理解 Storm 外部
    • 四、集群模式中的 Storm
    • 五、Storm 高可用性和故障转移
    • 六、给 Storm 增加 NoSQL 长久化
    • 七、Cassandra 分区、高可用性和一致性
    • 八、Cassandra 治理和保护
    • 九、Storm 治理和保护
    • 十、Storm 中的高级概念
    • 十一、分布式缓存和 Storm 核心平台
    • 十二、附录 a:测验答案
  • Spark 数据迷信

    • 零、前言
    • 一、大数据和数据迷信简介
    • 二、Spark 编程模型
    • 三、数据帧简介
    • 四、对立数据拜访
    • 五、Spark 数据分析
    • 六、机器学习
    • 七、应用 SparkR 扩大 Spark
    • 八、剖析非结构化数据
    • 九、可视化大数据
    • 十、把它们放在一起
    • 十一、构建数据迷信利用

下载

Docker

docker pull apachecn0/apachecn-bigdata-zh
docker run -tid -p <port>:80 apachecn0/apachecn-bigdata-zh
# 拜访 http://localhost:{port} 

PYPI

pip install apachecn-bigdata-zh
apachecn-bigdata-zh <port>
# 拜访 http://localhost:{port} 

NPM

npm install -g apachecn-bigdata-zh
apachecn-bigdata-zh <port>
# 拜访 http://localhost:{port} 

奉献指南

本我的项目须要校对,欢送大家提交 Pull Request。

请您怯懦地去翻译和改良翻译。尽管咱们谋求卓越,但咱们并不要求您做到美中不足,因而请不要放心因为翻译上犯错——在大部分状况下,咱们的服务器曾经记录所有的翻译,因而您不用放心会因为您的失误受到无法挽回的毁坏。(改编自维基百科)

组织介绍

拜访咱们的主页。

资助咱们

通过平台自带的打赏性能,或点击这里。

退出移动版