关于人工智能:ApacheCon-Asia-2022-启动7-场阿里云大数据-AI-议题分享等你围观

36次阅读

共计 2836 个字符，预计需要花费 8 分钟才能阅读完成。

ApacheCon Asia 2022 强势来袭，ApacheCon 是 Apache 软件基金会（ASF）的官网寰球系列大会，作为久负盛名的开源盛宴，是开源界最具期待的大会之一。7 月 29 日至 31 日，针对亚太地区的开发者特举办 ApacheCon Asia 在线会议，足不出户，大家即可在线上加入这场 Apache 技术盛宴。

阿里云大数据 &AI 相干议程如下：

本次演讲将会介绍 ODL 场景下的一系列的关键技术，包含：超大稠密模型训练 / 预测、秒级的模型热更新、实时训练模型校对、模型回退及样本回放、样本修复、实时训练弹性资源调度等等。

刘童璇: 阿里云智能计算平台事业部 PAI, 高级技术专家, 长期从事机器学习平台 / 深度学习引擎的研发，负责大规模稠密模型的训练和预测优化，长期反对阿里搜寻、举荐、广告等外围业务，负责阿里大规模稠密模型训练框架 DeepRec、ODL。

本次演讲次要分享在 Apache Flink 机器学习库 (Flink ML) 中曾经实现的工作，近期的倒退打算，以及 Flink ML 的倒退愿景。

高赟: 阿里巴巴, 技术专家, 阿里巴巴技术专家，Apache Flink PMC/committer.

高赟博士毕业于中国科学院大学，退出阿里巴巴实时计算团队，次要从事 Flink Runtime / DataStream 方向的开发与改良。

张智鹏: 阿里巴巴, 高级算法工程师, Apache Flink committer.

张智鹏博士毕业于北京大学，次要从事分布式机器学习零碎 / 算法相干的钻研。毕业后退出阿里巴巴机器学习团队，次要从事 Flink 相干的机器学习开发与改良。

本次演讲次要介绍阿里云 PAI 团队以 BladeDISC 为核心，在动静 Shape 编译器上的工作，次要包含：BladeDISC 的次要架构、动静 Shape 带来的挑战、大粒度算子交融、计算密集型算子、以及 BladeDISC 在阿里云业务中的利用等。

邱侠斐: 阿里云计算有限公司, 高级技术专家, 阿里云 PAI 团队是负责阿里团体外部和内部 AI 基础设施的团队，模型系统优化始终是团队的重点技术方向之一。编译器作为系统优化的重要伎俩，通过外部多年的积淀打磨，目前曾经在 GitHub 开源（ https://github.com/alibaba/Bl…）。

Flink Table Store 是一个为流式数仓打造的流批对立的存储，用于在 Flink 中为流批处理建设动静表，反对实时流生产和实时 OLAP 查问。Flink Table Store 曾经公布了第一个前瞻版本，然而短少了生态和稳定性的不少工作。目前咱们曾经开始研发第二个版本，咱们心愿第二个版本可能带来更多的生产能力，通过此次分享你能够理解到咱们通过增强哪些方面来进步存储的可靠性和生态。另外，我也会分享后续的架构，Service 版本，它如何达成对立的流仓的存储，它又解锁了哪些场景。

李劲松: 阿里巴巴, 技术专家, 目前就任于阿里云开源大数据，长期从事分布式流 / 批处理零碎畛域的工作，也对数据湖和 OLAP MPP 有一些钻研。是 Apache Beam / Flink / Iceberg 的 Committer，对底层调度、通信机制、用户模型、SQL 流批计算、存储有肯定理解。目前专一于 Flink Table Store 我的项目的开发，心愿给 Flink 带来一个最适宜的存储。

对于大数据工程师来说，大数据作业的开发和调度通常是在不同的环境中进行的。须要在 IDE 中实现作业开发、调试后，再将代码 copy paste 或打包到调度工具中进行调度。一方面影响了开发效率，另一方面因为环境的差别导致调度时可能产生难以预知的问题。本演讲将介绍并演示如何采纳开源的 ApacheDolphinscheduler 调度工具和 Apache Zeppelin 以及 Jupyter 两种 Notebook 组成大数据开发 Studio。数据平台团队适配好相干环境后，大数据 /AI 工程师在线交互式开发 /debug，并进行一键调度，无需再破费工夫解决因为环境不统一导致的适配问题，极大地提高了大数据作业到开发效率和体验。演讲中所波及的组件间整合代码已齐全开源，欢送下载体验。

高楚枫 : 阿里云 EMR 数据开发团队, 根底平台开发工程师, 毕业于上海交通大学，Purdue University。ex-SDE@Amazon, Seattle。现任职于阿里云 EMR 数据开发团队。Apache Dolphinscheduler, Airflow, Zeppelin Contributor。对新型大数据开发平台感兴趣。

数据库中的业务数据是最有价值的数据之一，如何无效地将这些数据高效地同步到数据湖中是一个十分有价值的主题。CDC（Change Data Capture）是用于从数据库中捕捉变更的技术，Flink CDC 是实时数据集成框架的开源代表，具备全增量一体化、无锁读取、并发读取、分布式架构等技术劣势，在开源社区中十分受欢迎。除了具备实时入湖入仓能力，Flink CDC 还反对弱小的数据加工能力，能够通过 SQL 对数据库数据做实时关联、聚合、打宽等, 配合 Flink 丰盛的上游生态能够将加工后的数据不便地写入 Kafka、Hudi、Iceberg、Doris 等上游。

在本次分享中，首先会分享 Flink CDC 的无锁算法、并行读取、断点续传和分布式架构等外围设计和实现，并联合具体的业务场景，分享 Flink CDC 在不同场景中的利用，而后配合 demo 具体介绍如何基于 Flink CDC 和 Hudi 高效地实现实时数据湖构建。

徐榜江 : 阿里云, 高级研发工程师, Apache Flink Committer & Flink CDC Maintainer，专一在 Flink SQL，Flink CDC，数据集成畛域，曾在国内外屡次演讲和分享 Apache Flink，Flink CDC 相干技术。

随着数据湖格局的衰亡和利用，如何在理论生产环境中更好的与现有大数据生态联合，解决以后大数据 / 数仓架构下的难点，是须要继续去摸索和丰盛的。该 topic 探讨在经典的数仓 CDC 场景下，如何将 Apache Hudi 和 Apache Spark 联合，实现 CDC 解决方案，来构建残缺的流式增量数仓。

毕岩 : 阿里云智能 - 计算平台事业部 - 开源大数据平台, 技术专家, 就任于阿里云计算平台开源大数据部门，专一于 Apache Spark、Hudi 等开源我的项目，及与阿里云 EMR 和 DLF 产品的集成。

想要理解大会全副议程，请点击： https://apachecon.com/acasia2…

正文完

人工智能

发表至：人工智能

2022-07-28

0

关于人工智能:当心你的App-可能是山寨的

关于人工智能:ArgMiner一个用于对论点挖掘数据集进行处理增强训练和推理的-PyTorch-包

关于人工智能:全球边缘计算市场竞争激烈浪潮信息成为Very-Strong的佼佼者

关于人工智能:高精度轻量级目标检测产业应用实现多类通信塔识别

关于阿里云:不懂就问快速成为容器服务进阶玩家

关于人工智能:ApacheCon-Asia-2022-启动7-场阿里云大数据-AI-议题分享等你围观

人工智能 / 机器学习分论坛

实时深度学习训练 PAI-ODL

Flink ML: 基于 Apache Flink 的实时机器学习

BladeDISC: 反对动静 Shape 的深度学习编译器实际

大数据分论坛

Flink Table Store：流式数仓架构与场景

开源大数据 Studio: Dolphinscheduler + Notebook

流解决分论坛

基于 Flink CDC 和 Hudi 高效地构建实时数据湖

基于数据湖格局构建流式增量数仓——CDC

Just My Socks（注册教程内含优惠码）

关于人工智能:ApacheCon-Asia-2022-启动7-场阿里云大数据-AI-议题分享等你围观

人工智能 / 机器学习分论坛

实时深度学习训练 PAI-ODL

Flink ML: 基于 Apache Flink 的实时机器学习

BladeDISC: 反对动静 Shape 的深度学习编译器实际

大数据分论坛

Flink Table Store：流式数仓架构与场景

开源大数据 Studio: Dolphinscheduler + Notebook

流解决分论坛

基于 Flink CDC 和 Hudi 高效地构建实时数据湖

基于数据湖格局构建流式增量数仓——CDC

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）