关于apache:Apache-首次亚洲技术峰会-大数据场大咖详细介绍

引言

随着越来越多的企业开启数字化转型，大数据行业失去了前所未有的疾速倒退，大数据的凋敝给大数据生态的各技术也带来了前所未有的时机与挑战。谈到大数据技术，我置信大家肯定对 Apache 不会生疏，大数据开源技术绝大多数是来自 Apache 基金会, 明天我先给大家介绍 Apache 年度盛会 – ApacheCon

ApacheCon

@ 官网寰球系列大会

ApacheCon 是 Apache 软件基金会（ASF）的官网寰球系列大会，每年举办一次。作为久负盛名的开源盛宴，是开源界最具期待的大会之一。

自 1998 年停办以来，ApacheCon 曾经吸引了超过 350 个技术我的项目和不同社区参加其中，汇聚海内外的业内专家与老师，分享寰球最新的技术动静与实际，独特探讨 “今天的技术”，让宽广的技术爱好者们看到各技术前沿，有哪些最新趋势和停顿，更好的降级本人的技术栈。

但，但 ApacheCon 以往十多年都在海内举办，往年是组委会首次针对亚太地区举办 ApacheCon 在线大会：ApacheCon Asia。Asia 大会将来自中国、日本、印度、美国等海内外的 140+ 议题分为大数据、Incubator、API / 微服务、中间件、工作流和数据治理、数据可视化、可观测性、流解决、音讯零碎、物联网和工业物联网、集成、开源社区/文化、Web Server/Tomcat 等 14 个论坛。

参加 2021 年 8 月 6 日 – 8 日的 Asia 大会，您将取得：

·寰球最新的技术动静与实际分享

·与海内外 200+ 名顶级专家交换机会

·3 天盛会，140+ 场议题，全程收费加入

流动官网：

https://www.apachecon.com/aca…

大会议程详情：

https://apachecon.com/acasia2…

对于 Big Data 论坛

Big Data 是 Apache 最重要的主题之一。往年大数据场也异样冷落，涵盖我的项目包含 Arrow、Atlas、Bigtop、CarbonData、Cassandra、DolphinScheduler、Doris(孵化中)、Druid、Flink、Hadoop、HBase、Hive、HUDI、Impla、Kylin、Kyuubi(孵化中)、Liminal(孵化中)、Nemo、Pinot、Pulsar、Spark、YuniKorn(孵化中)等顶级我的项目或正在孵化中的我的项目，以及现下较为炽热的 Milvus、openLooKeng 等开源我的项目。在本次 3 天盛会中，大家均能理解这些技术的前沿趋势和来自一线用户的实践经验、原理、架构剖析等精彩内容。

出品人

因为大数据技术太过火热，排满 3 天议程，明天咱们将为您具体解读第一天的海内外的各位技术大咖们。

大数据场也特地邀请到 3 位主持人

8月6日议程亮点@ Apache

Big Data

扩大 Impala — 常见谬误和最佳实际

分享嘉宾：Manish Maheshwari

工夫：8月6日 13:30

议题介绍:

Apache Impala 是一个简单的引擎，须要全面的技术了解能力充沛应用它。在本讲座中，咱们将探讨放弃 Impala 部署可扩展性的摄取最佳实际，以及为终端用户提供统一体验的准入管制配置。咱们还将对 Impala 的查问配置文件进行高层次的钻研，它被用作任何性能故障排除的第一站。此外，咱们将探讨用户和 BI 工具在与 Impala 互动时常犯的谬误。最初，咱们将探讨一个现实的配置，以将上述的内容都出现在实践中。

其实现和利用挑战。

嘉宾介绍:

Manish Maheshwari

Cloudera 的 Principal Sales Engineer，15 年以上建设超大型数据仓库和剖析解决方案的教训。在 Apache Hadoop、DI 和 BI 工具、数据挖掘和预测、数据建模、主数据和元数据管理以及仪表盘工具方面有丰盛的教训。精通 Hadoop、SAS、R、Informatica、Teradata 和 Qlikview。

DBS [新加坡倒退银行] 的数据平台如何利用 Apache CarbonData 推动实时洞察和剖析

分享嘉宾：Ravindra Pesala / Kumar Vishal

工夫：8月6日 13:30

议题介绍:

星展银行（DBS）是一家总部设在新加坡的当先银行，银行已有数兆字节的结构化和非结构化数据，这些数据为银行指定策略提供重要帮忙。2020 年，星展银行投资于一个基于 CarbonData 的数据平台，以推动实时剖析，并从各种起源的现有数据中开释出洞察力。在本讲座中，咱们将介绍星展银行如何利用 Spark 和 Presto 引擎从传统的数据仓库转向基于 CarbonData 的数据湖。

嘉宾介绍:

Ravindra Pesala

新加坡星展银行高级副总裁，大数据平台负责人

Apache CarbonData PMC

领导大数据工程平台，包含摄入、计算、数据拜访、流媒体和元数据。

Kumar Vishal

Apache CarbonData PMC

高级大数据工程师

解决大数据工程平台，包含摄取、计算、数据拜访、流媒体

构建分布式容错可扩大的剖析栈的挑战

分享嘉宾：Nishant Bangarwa

工夫：8月6日 14:10

议题介绍:

截至目前， Apache Druid 集群领有超过 50 多万亿的事件，相当于超过 500PB 的原始数据，并且一直地增长。在这次演讲中，咱们将介绍分布式容错可扩大剖析栈的设计及其挑战，并讲述咱们将 Apache Druid 倒退为一个弱小的分布式容错可扩大剖析数据存储的门路。

嘉宾介绍:

Nishant Bangarwa

Rilldata 联结创始人和工程主管。

沉闷的开源贡献者，Apache Druid PMC & Apache Superset PMC，Apache Calcite和Apache Hive的提交者。

在 Rilldata 之前，他是 Cloudera 的数据仓库团队和 Metamarkets Druid 团队的一员，负责管理大规模的 Apache Druid 部署。

印度 Kurukshetra 国家理工学院计算机科学学士

在 Apache Ozone 中是如何实现平安的

分享嘉宾：Bharat Viswanadham / Shashikant Banerjee

工夫：8 月 6 日 14:10

议题介绍:

Apache Ozone 是一个可扩大的、冗余的、分布式的 Hadoop 对象存储，它在2020年成为 Apache 的顶级我的项目。Apache Ozone 有两个元数据服务，一个是存储容器管理器（SCM），治理块/容器的调配和复制、证书和节点治理；另一个是 OzoneManager，治理元数据。在本讲座中，咱们将探讨 Ozone 中的平安是如何实现的。

其实现和利用挑战。

嘉宾介绍:

Bharat Viswanadham：软件工程专家，在设计和构建可扩大和高性能的分布式存储系统方面领有7年以上的教训。Apache Hadoop 和Apache Ozone Committer & PMC。

Shashikant Banerjee：8 年以上的教训的分布式存储系统方面专家。Apache Hadoop、Apache Ozone 和 Apache Ratis 社区的 committer & PMC。

openLooKeng 启发式指数框架架构剖析与利用实际

分享嘉宾：李铮

工夫：8 月 6 日 14:50

议题介绍:

随着大数据技术的利用和倒退，数据类型越来越多，数据分布越来越广，查问场景越来越简单。这使得数据的解决变得艰难或不容易。为了进步大数据的可用性，华为发动了数据虚拟化引擎开源我的项目 openLooKeng。

openLooKeng 提供对立的 SQL 接口，提供根本的交互式查问和剖析能力，并在跨数据中心/云、数据源扩大、性能、可靠性、安全性等方面继续倒退，使大数据简单化。本讲座将重点介绍 openLooKeng 启发式索引框架，以及基于该框架的重大索引技术及其实现和利用挑战。

嘉宾介绍:

李铮

华中科技大学博士。于 2018 年 6 月退出华为。目前专一于 openLooKeng 的性能优化钻研，深刻参加了大数据查问剖析引擎架构的设计和实现等相干工作。

Kyuubi: 网易对 Serverless Spark 场景的摸索与实际利用

分享嘉宾：姚琴

工夫：8 月 6 日 14:50

议题介绍:

本次主题次要涵盖网易开源大数据组件 Kyuubi 我的项目的架构、实现原理及利用场景进行介绍，并通过理论案例展现 Kyuubi 在网易外部帮忙业务实现 Serverless Spark 能力及对应过程与思考。同时，介绍在这个过程中咱们是如何直接参与在 Spark 开源社区中，同步实现对应的问题解决和个性优化的。

嘉宾介绍:

姚琴

Apache Kyuubi 我的项目的次要作者

Apache Spark Committer

Apache Submarine Committer

来自网易大数据团队

招商银行跨数据源的数据分析

分享嘉宾：吴酋珉

工夫：8 月 6 日 15:30

议题介绍:

招商银行(CMB)有 PB 级的数据存储在 RDBMS、NoSQL 数据库、对象存储、大数据框架 – Apache Hadoop、Spark、Flink 等。通过 ETL 办法从不同的数据源传输数据的老本很高。因而，openLookeng 被引入来连贯不同的数据源，并在本地跨数据中心和混合云解决数据。

本讲座将概述 CMB 的数据处理引擎，它能对天文上的近程数据源进行就地剖析。以及咱们如何应用 openLookeng 的性能，如高可用性、主动扩大、内置缓存和索引反对等，以满足企业工作负载需要的可靠性。

嘉宾介绍:

吴酋珉

招商银行大数据技术专家，金融科技领域 9 年大数据教训，负责招商银行大数据平台的架构设计、施行和保护。openLookeng PMC。

Apache Druid 的存储和查问引擎底细

分享嘉宾：Gian Merlino

工夫：8 月 6 日 15:30

议题介绍:

Apache Druid 是一个开源的列式数据库，以大规模、高性能而闻名；其最大的部署包含成千上万的服务器。但无论规模大小，高性能都要从良好的根底开始。本讲座将通过摸索单个数据服务器的外部工作原理来深刻理解这些基本原理。咱们将介绍Apache Druid 是如何存储数据，应用何种压缩形式，而存储引擎如何与查询处理引擎相连，以及零碎如何解决资源管理和多线程。

嘉宾介绍:

Gian Merlino

Imply 联结创始人和 CTO。Druid 的次要提交者之一。曾在 Metamarkets 领导数据摄取团队，并在雅虎负责高级工程职位。加州理工学院计算机科学学士。

通过应用 Apache CarbonData 的索引放慢大数据分析的速度

分享嘉宾：AKASH R NILUGAL / KUNAL KAPOOR

工夫：8 月 6 日 16:10

议题介绍:

21 世纪的数据就像 18 世纪的石油：如果以智能的形式进行解决，是一种微小的、未开发的贵重资产。大数据的存储和剖析在老本和工夫上都是具备挑战性和低廉的。剖析解决方案须要一直自我调整，以跟上指数级的数据增长速度的挑战。Apache CarbonData 是一个对立的存储解决方案+文件格式，旨在优化查问性能，从而升高剖析老本。Apache CarbonData 曾经被 100 多个开源用户采纳。在数据库中，索引是次要的性能之一，它基本上能够帮忙查问而不须要扫描每一行。从这个概念中失去的灵感，Apache CarbonData 反对自定义索引，如最小/最大，Bloom，Lucene，二级索引和物化视图，以放慢行级更新，删除，OLAP 和点查问。本演讲强调了 CarbonData的自定义索引架构和分布式索引缓存服务器，这有助于提供更快的查问后果，以及将来的挑战和范畴。

嘉宾介绍:

Akash R Nilugal

Apache Carbondata PMC & Committer

华为 Banglore 钻研核心云和AI/数据平台团队高级技术负责人。

大数据 5 年教训，对大数据的索引反对、物化视图、大数据的 CDC、Spark SQL 查问优化、Spark 结构化流、数据湖和数据仓库性能等畛域感兴趣。

Kunal Kapoor

Apache Carbondata PMC & Committer，华为 Banglore 钻研核心云和AI/数据平台团队零碎架构师，次要负责包含分布式索引缓存服务器，Hive + Carbondata 集成，预聚合反对，S3 对 Carbondata 的反对，Carbondata的二级索引，Carbondata 中的 Spark SQL 查问优化。

基于JAVA的大数据机器学习计划

分享嘉宾：兰青

工夫：8 月 6 日 16:10

议题介绍:

机器学习（ML）利用的胜利取决于对大数据的利用。大多数大数据都是以非结构化格局提供的。大数据的可用性也能够是离线和在线的。尽管在 Python 中也有 ML 工作的选项，但将 Python 应用程序整合到现有的基于 Java/Scala 的大数据管道中是相当具备挑战性的。除此之外，在 Java/Scala 中，很少有抉择能够弥合解决大数据和应用同一库进行 ML 工作负载的差距。

为了解决上述问题，咱们将用 Java 中的机器学习框架 DJL 来演示 Java 中的大数据 ML 解决方案。DJL 提供了多种 ML 引擎，包含 TensorFlow、PyTorch、Apache MXNet（正在孵化）。PaddlePaddle、ONNXRuntime 等等。通过应用 Apache Flink和 Apache Spark，用户能够轻松建设他们的在线/离线 ML 管道。在会议完结时，听众将可能为所有不同的场景建设一个易于应用、高性能的 ML 管道。

嘉宾介绍:

兰青

亚马逊 AWS 机器学习平台软件开发工程师，深耕大数据以及生产环境中机器学习的利用架构。

DJL（djl.ai）的独特作者之一

Apache MXNet PPMC

哥伦比亚大学计算机工程硕士

洞悉开源社区的机密 — 数据驱动的社区经营的最佳实际

分享嘉宾：钟君 / 姜逸坤 / 彭磊

工夫：8月6日 16:50

议题介绍:

在开源社区的评估过程中，对社区现状的数据驱动的洞察和剖析对于帮忙社区健康成长是十分有意义的。因而，数据驱动的操作在社区中起到了关键作用。在本专题中，咱们将介绍在数据驱动的社区经营方面的最佳实际。这个经营管理系统帮忙中国几个最沉闷的开源社区（如 openEuler、openGauss、openLooKeng、MindSpore等）高效、迷信地掂量社区的衰弱、活跃度和其余要害指标。本课题还将联合 openEuler 社区的实在案例，讲述数据驱动经营零碎是如何实现的，介绍如何利用弱小的 Apache 大数据我的项目来构建第一个可用版本（包含数据存储、剖析、数据洞察和可视化），以及咱们奉献给 Apache 上游我的项目的改良计划。

嘉宾介绍:

钟君

参加开源社区的工作超过 6 年。负责 openEuler、MindSpore、openGauss 和 openLooKeng 我的项目的数字经营零碎。负责多个社区的外围贡献者，如 openEuler 开源社区 infra sig 团队的维护者，openGauss 开源社区 infra sig 团队的维护者，以及 OpenStack manila 我的项目的核心成员。

姜逸坤

华为开源开发团队的高级软件工程师，参加开源社区 5 年多，致力于大数据畛域我的项目的多架构反对和改良。在云计算和大数据优化方面有五年的教训。之前，他还是 OpenStack 存储我的项目的 Committer。

彭磊

华为开源开发团队的高级软件工程师，从事 MySQL 的多架构反对和改良工作。五年的 SQL 开发和大数据应用教训。曾钻研 MySQL 的内核，包含 MySQL 组复制，并从事分布式数据库的内核开发工作。两年的大数据我的项目应用教训，如 Spark/Kafka/Hadoop。

AWS 上的 Apache HUDI

分享嘉宾：费良宏

工夫：8月6日 16:50

议题介绍:

介绍 AWS 上的 Apache Hudi，包含 Apache Hudi 介绍，常见用例，Hudi 存储类型，编写 Hudi 数据集，查问 Hudi 数据集和一些提醒。

嘉宾介绍:

费良宏

亚马逊网络服务 AWS 首席开发者布道师

利用本人 20 年的教训来反对翻新，帮忙初创企业和公司将他们的想法变成事实。专一于软件开发和云原生架构，以及机器学习和数据分析的技术和商业影响。在退出 AWS 之前，曾在苹果和微软工作。一些趣味包含，人工智能，数据迷信和摄影。

以上就是 Asia 大会大数据论坛第一天的精彩分享，敬请期待第 2、3 天的各路大咖吧！

看到这里您还在犹豫什么呢，赶快来报名吧！

报名形式

ApacheCon Asia 2021

8月6日-8日

14 个论坛，100+ 技术我的项目

140+ 场议题演讲

连线对话寰球技术大咖与专家

满满3天全天候交换盛会

全程收费加入

ApacheCon 首次亚洲线上大会

2021年8月6日-8日

期待敌人们的到来

点击【此处】即可报名

关于apache:Apache-首次亚洲技术峰会-大数据场大咖详细介绍

引言

对于 Big Data 论坛

出品人

8月6日议程亮点@ Apache

扩大 Impala — 常见谬误和最佳实际

DBS [新加坡倒退银行] 的数据平台如何利用 Apache CarbonData 推动实时洞察和剖析

构建分布式容错可扩大的剖析栈的挑战

在 Apache Ozone 中是如何实现平安的

openLooKeng 启发式指数框架架构剖析与利用实际

Kyuubi: 网易对 Serverless Spark 场景的摸索与实际利用

招商银行跨数据源的数据分析

Apache Druid 的存储和查问引擎底细

通过应用 Apache CarbonData 的索引放慢大数据分析的速度

基于JAVA的大数据机器学习计划

洞悉开源社区的机密 — 数据驱动的社区经营的最佳实际

AWS 上的 Apache HUDI

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于apache:Apache-首次亚洲技术峰会-大数据场大咖详细介绍

引言

对于 Big Data 论坛

出品人

8月6日议程亮点@ Apache

扩大 Impala — 常见谬误和最佳实际

DBS [新加坡倒退银行] 的数据平台如何利用 Apache CarbonData 推动实时洞察和剖析

构建分布式容错可扩大的剖析栈的挑战

在 Apache Ozone 中是如何实现平安的

openLooKeng 启发式指数框架架构剖析与利用实际

Kyuubi: 网易对 Serverless Spark 场景的摸索与实际利用

招商银行跨数据源的数据分析

Apache Druid 的存储和查问引擎底细

通过应用 Apache CarbonData 的索引放慢大数据分析的速度

基于JAVA的大数据机器学习计划

洞悉开源社区的机密 — 数据驱动的社区经营的最佳实际

AWS 上的 Apache HUDI

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复