关于apache:Flink-Forward-Asia-2022-主论坛概览

12次阅读

共计 10870 个字符,预计需要花费 28 分钟才能阅读完成。

2022 年 11 月 26-27 日,Flink Forward Asia(FFA)峰会胜利举办。Flink Forward Asia 是由 Apache 软件基金会官网受权、由阿里云承办的技术峰会,是目前国内最大的 Apache 顶级我的项目会议之一,也是 Flink 开发者和使用者的年度盛会。因为疫情起因,本届峰会仍采纳线上模式。此外,本次峰会上还举办了第四届天池实时计算 Flink 挑战赛的颁奖仪式,4346 支参赛队伍中共有 11 支队伍通过层层角逐怀才不遇,最终播种了奖项。

FFA 大会照例总结了 Apache Flink 过来一年的倒退状况。2022 年,Apache Flink 社区持续放弃疾速倒退:Github Star 数冲破 2 万;代码贡献者总人数超过 1,600 人;单月下载量冲破 1,400 万次。其中,Apache Flink 中文社区的倒退尤为蓬勃:据 ossinsight.io 统计截至目前 Apache Flink 我的项目所有 PR 中有 45% 来自中国开发者;由 Apache 软件基金会受权、Apache Flink PMC 治理的官网微信公众号,2022 年 共公布了 130+ 篇技术分享文章,累计订阅用户数冲破 6 万;新开通的微信视频号公布了 36 篇视频,目前已有近 4,000 订阅用户。

咱们欣慰地看到,Apache Flink 已成为实时流计算寰球范畴事实标准。Flink 凭借弱小的实时化大数据计算能力,与泛滥开源社区生态我的项目的强强联合,造成了实时大屏展现、实时数据集成、实时湖仓剖析、实时个性化举荐、实时风控监控等一系列实时化大数据场景的解决方案,成为了推动各行各业数据分析实时化降级的外围推动力。

本文接下来将对本次 FFA 峰会主论坛几个 Keynotes 议题进行简略的演绎总结,感兴趣的小伙伴能够到官网 https://flink-forward.org.cn/ 观看大会全副议题的视频回放。

云与开源,共植数字世界的根

在 Keynotes 议题开始之前,阿里巴巴团体副总裁、阿里巴巴开源技术委员会负责人、阿里云智能计算平台负责人贾扬清老师作为收场嘉宾,分享了他对云与开源关系的了解。

在产业数字化、数字产业化的明天,云和开源曾经共生、共长、共筑了一个数字世界的根。开源与商业化如何更好地联合,咱们认为云是其中最重要的一环。云为开源软件的部署和获取提供了更好的环境,在云提供的弹性环境中,用户能够一键取得开源软件与平台的能力。云和开源软件的共生,也使得用户能有更加广大和灵便的抉择,每个人都可能寻找到最适宜的开源软件组合来解决本身业务问题。在这个倒退的过程中,逐步造成了云原生的概念。

在过来的十几年中,阿里巴巴始终是开源软件和社区的动摇拥护者和实践者,造成了“三位一体”的策略:开源社区的技术、阿里巴巴外部利用的技术以及在阿里云上通过商业化模式提供给客户的技术是对立的。开源提供了十分好的用户体验,在阿里巴巴这样的大规模场景中可能产生很多个性化或系统化的需要,二者的关注点造成互补。阿里巴巴将本人的最佳实际奉献回开源社区,使得社区的易用性与大规模企业所应用的稳定性、弹性可能很好地联合。

以 Apache Flink 为例,阿里巴巴在 2016 年开始采纳 Flink 作为外部实时计算的一条技术路线,并基于 Flink 建设了 Blink 这样一个外部体系。从 16 年开始,咱们逐步将 Blink 奉献回社区,至 18 年已成为 Flink 社区最大的贡献者。明天咱们欣慰地看到,Apache Flink 项目管理委员会中有 1/4 的成员来自阿里巴巴,通过阿里巴巴的推动以及整个社区的单干,Flink 曾经被中国绝大多数的互联网企业作为流计算的事实标准来采纳,Flink 也间断两年蝉联 Apache 社区最沉闷我的项目。

明天云与开源的迭代,也使得人们在开源软件的方向上有了新的摸索。以 Flink 为例,最后是一个以 Java API 实现流计算的平台,在阿里巴巴外部及阿里云上的利用中逐步成长出了像 SQL 这样的能力。近几年,阿里巴巴也在依据本身应用 Flink 的需要一直摸索新的方向,例如在数据集成方向倒退十分快的 Flink CDC 我的项目、和机器学习联合的 Flink ML 我的项目、与传统数仓相结合的流式数仓概念以及在此概念下推出的 Flink Table Store 我的项目等。此外,在整个大数据畛域也有很多共性的技术,例如大规模分布式计算在存算拆散环境中的 Remote Shuffle Service,在 Flink、Spark、Hive 等引擎中都有相似的需要。咱们也很快乐地向大家发表,阿里云曾经将本身云场景中孕育的 Remote Shuffle Service 我的项目募捐给了 Apache 软件基金会,命名为 Apache Celeborn。

阿里巴巴不仅是开源软件的受益者,同时也是贡献者。开源曾经成为阿里巴巴工程师文化中不可或缺的一部分,越来越多的工程师在开源社区吸取常识,在踊跃地参加开源软件和社区建设,同时也在适当的时候将咱们本人建设的我的项目奉献给开源社区。我置信在将来咱们会持续和开源社区一起,基于云这样一个底座,给用户提供更加容易触达和应用软件的平台和形式,同时以咱们和社区的技术实力独特建设更加凋敝的开源社区。

Flink Towards Streaming Data Warehouse

主论坛 Keynotes 议题照例由 Apache Flink 中文社区发起人、阿里云开源大数据平台负责人王峰老师开启,介绍了 Apache Flink 社区在 2022 年获得的次要技术创新与成绩,以及将来的倒退方向。

Apache Flink 2022 – 数据实时化技术创新不止

2022 年,Apache Flink 公布了两个大版本。在 Flink 1.15 版本中,社区集中解决了许多长期存在的历史难题,包含 SQL 作业的跨版本升级、状态快照的所属权语义与生命周期治理、跨数据源的 Watermark 进度同步、批作业自适应算子并发设置等。在 Flink 1.16 版本中,社区进行了更多新的翻新与尝试,包含分布式一致性快照架构降级、翻新流批自适应交融 Shuffle、基于异步与缓存技术的流式 SQL 维表 Join 改良、残缺兼容 Hive 生态、PyFlink 性能及性能全面生产可用等。

分布式一致性快照架构全新降级

Apache Flink 作为一款有状态的流式计算引擎,分布式一致性快照是其十分外围的一项技术。Flink 在流计算过程中,定期对状态做快照并长久化,当作业出现异常时能够从最近一次快照进行复原,以保障业务连续性。因而,可能以更高的频次、更低的老本进行快照,让业务更加晦涩,是 Flink 用户的独特诉求。然而在实在生产环境中,特地大规模简单生产环境中,分布式一致性快照面临着诸多挑战:一方面在反压状态下,网络缓冲拥塞,用于做分布式快照的 Barrier 无奈沿数据流向下传输,无奈及时触发快照;另一方面,即便能触发快照,须要长久化到近程存储系统的本地状态数据的数据量和上传工夫均不可控。上述起因导致用户时常遇到无奈在规定工夫内生成分布式快照的状况,重大影响业务的稳定性。

针对上述问题,Flink 在最近几个版本中对整个分布式一致性快照架构进行了全方面的降级,次要内容包含:

  • Unaligned Checkpoint:当 Barrier 对齐工夫达到肯定阈值后,主动转化为 Unaligned Checkpoint,兼顾 Checkpoint 的数据量与 Barrier 对齐工夫。
  • Buffer Debloating:只缓存上游算子 1s 内能够解决的数据量,在防止网络传输影响算子性能的前提下,最大限度升高算子间缓存的数据量。
  • Log-based Checkpoint:状态表与增量日志解耦,异步上传,大幅升高生成快照的老本。

随着上述技术在 Flink 1.16 落地,Flink 造成了新一代的分布式一致性快照架构。

面向云原生的新一代状态存储管理体系

云原生时代曾经到来,各个根底软件我的项目都须要思考如何去适应这样一个时代,Apache Flink 也不例外。对于 Flink 而言,云原生时代带来的最显著的变动是对于资源弹性扩缩容的诉求,这要求 Flink 作业的并发度可能随着业务量和资源一直扭转。在并发度扭转时,Flink 的状态存储也须要疾速地重新分配,即状态存储的决裂与合并。因而,Flink 状态存储的决裂、合并性能,间接关系到 Flink 弹性扩缩容的体验。

在 Flink 1.16 版本中,社区对 RocksDB State Backend 的状态重建算法进行了大量优化,获得了 2-10 倍的性能晋升,使得 Flink 的弹性扩缩容更加平滑、更加适应云原生时代。

此外,社区还打算将 Flink 状态存储管理体系进一步降级为彻底的存算拆散架构,以适应云原生环境。目前 Flink 的状态存储管理体系并非真正的存算拆散架构,所有状态数据仍然存储在本地 RocksDB 实例中,只有在分布式快照时将增量数据拷贝到近程存储,保障近程存储中存有全量的状态数据。将来,Flink 的状态数据将全副原生于近程存储之上,本地磁盘与内存只用作缓存减速,造成分层存储体系,咱们称之为分层状态存储(Tired State Backend)架构。

流批交融的 Hybrid Shuffle 翻新技术

流批一体、流批交融是 Apache Flink 十分有特色的一个技术理念,而 Shuffle 则是分布式计算零碎中一项十分外围的、与性能高度相干的技术。Flink 1.16 翻新推出了流批交融的 Hybrid Shuffle 技术。

在此之前,Apache Flink 在流模式和批模式下别离采取了两种不同的 Shuffle 技术:

  • 流式 Pipelined Shuffle:上下游工作通过网络间接连贯,数据通过内存和网络进行传输,无需磁盘 IO,性能更好。
  • 批式 Blocking Shuffle:上游工作先将两头数据写到磁盘或其余存储服务,上游再从磁盘或存储服务读取两头数据,须要磁盘 IO,性能稍差。

那么是否将流式 Shuffle 也利用在批执行模式下,减速批的 Shuffle 呢?从技术自身来说是能够的,但在生产环境下会面临比拟大的束缚。流式 Shuffle 要求所有彼此联通的工作同时拉起,这就须要更多的资源,而在生产环境下是否能有这么多资源是无奈保障的,甚至可能会有死锁的状况产生。如果能只在资源短缺的状况下将彼此联通的工作同时拉起进行流式 Shuffle 减速,同时在资源有余的状况下进化为批式 Shuffle,就能够更加正当地利用资源来进行 Shuffle 的减速。这也就是 Hybrid Shuffle 的背景和思路。

Flink 1.16 中实现了第一版 Hybrid Shuffle,初步评测相比传统的 Blocking Shuffle 获得了不错的性能晋升。在后续版本中,社区也会对这项技术做进一步的欠缺与优化。

Flink CDC 全增量一体化数据同步

Flink CDC,即基于 Apache Flink 的全增量一体化数据同步技术,是近两年提出的一个新概念。

为什么要基于 Flink 打造一款全增量一体化数据同步引擎?Flink 实质上是一款流式分布式计算引擎,事实上曾经成为连贯不同存储的数据管道。Flink 领有丰盛的 Connector 生态可能连贯各种支流存储系统,具备优良的分布式架构反对分布式快照、流批交融等机制,这些都是一款全增量一体数据集成引擎所须要的个性。因而,基于 Flink 打造全增量一体化数据同步引擎是非常适合的,这也就是 Flink CDC 我的项目的由来。

去年咱们推出了 Flink CDC 1.0,失去了来自开发者生态十分好的反馈。因而往年咱们加大投入,推出了更加成熟欠缺的 Flink CDC 2.0。Flink CDC 2.0 的次要个性包含:

  • 通用的增量快照框架形象,升高了新数据源的接入老本,使 Flink CDC 可能疾速接入更多的数据源。
  • 反对高性能的并行读取。
  • 基于 Flink 的分布式快照机制,实现数据同步的断点续传,进步可靠性。
  • 对数据源全程无锁,数据同步对在线业务无任何影响。

Flink CDC 翻新我的项目成长十分迅速,正在成为新一代数据集成引擎。目前 Flink CDC 已反对了包含 MySQL 家族、PolarDB、Oracle、MongoDB 等支流数据库且接入了增量快照框架,另外还反对了像 DB2、SQLServer、PostgreSQL、TiDB、OceanBase 等耳熟能详的数据库,置信今后也会有更多的数据源接入 Flink CDC 框架。该我的项目也取得了开源生态中开发者们的统一好评,Github Star 数曾经超过 3,000。

新一代迭代计算框架助力 Flink ML-2.0

在老版本的 Flink 中有一个 Flink ML 模块,是一套基于 DataSet API 实现的机器学习算法库。随着 Flink 根底 API 层全副对立到流批一体的 DataStream API,本来的 Flink ML 模块也和 DataSet API 一起被废除了。往年,Flink 社区基于 DataStream API 从新建设 Flink ML 成为一个新的子项目,目前曾经公布了两个版本。

家喻户晓,机器学习算法库运算的外围是迭代计算框架。Flink ML 2.0 基于 Flink DataStream API 重建了一套流批一体的迭代计算框架,可能反对有限流上的在线训练、训练中断复原以及高性能的异步训练。Flink ML 2.0 仍处于起步阶段,第一批数十种算法曾经由阿里云实时计算和机器学习团队实现了奉献,可能笼罩常见的特色工程场景,反对低提早的近线推理计算。期待将来有更多公司和开发者可能参加进来,为 Flink ML 奉献更多经典的机器学习算法,让 Flink 优良的计算能力在机器学习场景中施展更大的作用。

Apache Flink Next – Streaming Data Warehouse

在去年的 FFA 峰会上,咱们提出了 Apache Flink 社区下一步技术演进的方向——Streaming Data Warehouse。

咱们首先来回顾一下 Flink 历史上核心技术理念演进的过程,这有助于了解为什么咱们认为 Streaming Data Warehouse 是 Flink 下一步的演进方向。

  • Stateful Streaming:Flink 在诞生之初,可能受到开发者的青眼,取代上一代流式计算引擎 Storm,成为新一代流式计算引擎,关键在于其有状态的流计算这肯定位。通过将流计算与状态存储有机交融,Flink 能够在放弃高吞吐低提早的同时,在框架层反对有状态流计算的精准数据一致性。
  • Streaming SQL:晚期 Flink 开发必须写 Java 程序,使得 Flink 我的项目在疾速倒退几年之后遇到了推广门槛过高的瓶颈。在数据分析师的世界里,事实标准的语言是 SQL。于是在 2019 年,阿里云将外部积攒的 Blink SQL 奉献给了 Flink 社区,大幅升高了 Flink 的开发门槛,使得 Flink 在各行各业的利用失去了爆炸式的增长。
  • Streaming Data Warehouse:Flink 的流批一体 SQL 可能实现计算层全量增量开发一体化的体验,但无奈解决存储层割裂的问题。流式存储中的数据很难对其进行查问剖析,而批式存储中数据的时效性又比拟差。因而,咱们认为下一阶段 Flink 社区新的机会点就在于持续晋升一体化体验,通过流批一体 SQL + 流批一体存储构建一体化体验的流式数仓。

Flink 社区推出的全新子项目 Flink Table Store,其定位就是实现流批一体的存储能力,可能实现高性能的流读、流写、批读、批写。Flink Table Store 的设计遵循存算拆散理念,数据寄存在支流的云存储之上,其外围存储格局由 LakeStore 和 LogStore 两局部组成。LakeStore 利用了经典的 LSM、ORC 及其他索引技术,适宜大规模、高性能的数据更新与读取。LogStore 提供了残缺 CDC 语义的 ChangeLog,配合 Flink Streaming SQL 能够增量订阅 Table Store 进行流式数据分析。此外,Flink Table Store 采纳凋谢的数据格式体系,除了默认对接 Flink 之外,也能够对接 Spark、Hive、Trino 等支流开源计算引擎。

Flink Table Store 诞生一年来,共推出了两个版本,实现了从 0 到 1 的孵化落地。目前除了阿里云之外,也有来自字节跳动等公司的开发者在参加共建和试用。咱们对 Flink Table Store 和目前支流的数据湖存储 Hudi 进行了性能比照,结果显示 Flink Table Store 的更新性能显著当先 Hudi,查问性能显著当先 Hudi MOR 模式、靠近 Hudi COW 模式,综合体现更佳。

Apache Flink 实时计算在美的多业务场景下的利用与实际

第二场 Keynotes 议题是由美的团体实时数据负责人、资深数据架构师董奇老师带来的,她从家电行业的视角分享了 Apache Flink 实时计算在美的传统及新兴业务场景的利用与实际。

董奇老师首先介绍了实时生态体系在美的的倒退和建设现状。美的的实时数仓体系建设次要围绕时效性、稳定性、灵活性三个因素。时效性方面,设计了以 Flink 为外围的时效性保障架构;稳定性方面,包含开发阶段针对数据源连通性、元数据参数格局等的一系列校验和运行阶段的集群资源、工作状态等监控告警;灵活性方面,包含对立的元数据、UDF、Connector 等资源管理和对工作模板、专用逻辑等工作治理性能的反对。

Flink 在美的外围传统业务场景的数字化转型中施展了重要的作用,董奇老师分享了其中三个场景。

  • B 端长周期场景:具体业务场景包含美云销 App 看板和全链路订单可视。传统行业的洽购、营销、库存剖析以及长周期订单的跟踪,都须要对过来很长一段时间的数据进行回溯,这对实时计算的挑战是比拟大的。在咱们的架构中,历史全量数据是通过 Flink 主动加载 Hive 分区表来引入的,与 Kafka 增量数据相结合,做进一步计算加工。
  • 工厂生产进度:工厂的管理人员和员工能够通过实时大屏看到每个小时的生产进度,对于更好地实现每天的生产工作具备很大的实用价值。
  • 抢单流动大屏:面向代理商、运营商、零售商的抢单流动,波及到价格、供货、新品首发等方面的权利,是十分要害的。流动现场的实时大屏对于领导经营人员调整经营策略、代理商和零售商发展批发和抢单流动具备重要意义。

在美的新兴业务场景中,同样有许多基于 Flink 的实时数字化利用实际,在这方面董奇老师也分享了三个场景。

  • 家居设施实时智能调控:冰箱云管家、洗地机云管家、电热云管家等产品都具备剖析用户行为、调整管制智能家电行为以达到节能节水目标的性能。Flink 生产 Kafka 中的设施数据,与 Redis / HBase 用户、产品、第三方数据以及算法模型、规定相关联,将后果再写出到 Kafka 中,最终通过 IoT 云实现设施指令的下发。此外,在这套链路中 Flink 还承当了实时监控的职能。
  • HI 服务实时音讯推送:智能家居产品除了主动调控性能之外,还有许多须要通过人机交互、人为操控实现的性能,例如故障揭示、实现揭示、耗材揭示等。这套链路与家居设施实时智能调控很像,只是最终的数据会写出到第三方的推送平台。
  • 电商流动监控大屏:业务数据化,将经营人员手工收集录入的业务数据落入数据库,通过 CDC 技术捕获增量变动数据,再由 Flink 进行加工,通过 StarRocks + QuibkBI 搭建实时大屏,以供疾速直观的经营决策。

董奇老师指出,美的团体接下来的实时生态体系建设将重点围绕降本提效与工具赋能,包含云原生部署、热点平衡、工作报错根因与修复提醒等根底运维能力,以及平台与业务侧的可视化配置集成工具、细粒度资源配置、流批一体实际等。

Apache Flink 在米哈游的利用实际

接下来是来自米哈游大数据实时计算团队负责人张剑老师的分享。

张剑老师首先介绍了 Flink 在米哈游的倒退历程和平台建设状况。米哈游实时计算平台建设之初就抉择了 Apache Flink,这是基于 Flink 毫秒提早、窗口计算、状态存储、容错复原等优异个性以及背地蓬勃发展的社区。最后的实时计算平台是齐全基于 Flink DataStream API 的,初步具备工作的治理与运维能力。随着业务的增长,米哈游实时计算平台在 2020 年开始迈入高速倒退阶段,着手打造以 SQL 为主的一站式开发平台,推动了多云跨区域的工作治理、SQL 及连接器、指标和日志体系、元数据和血统等能力的建设,极大进步了研发效率。往年,米哈游实时计算平台开始朝着新的指标迈进,着手推动一站式开发平台的性能深入与场景笼罩,包含动态和动静调优、主动扩缩容、资源弹性、近实时数仓等能力的建设。

在利用方面,张剑老师分享了米哈游外部四个重要的利用场景。

  • 寰球游戏日志标准化采集加工:Flink 承当着米哈游全游戏业务每天近百亿的日志解决,峰值流量过千万。通过 Filebeat 采集和日志上报服务接管到的日志传输到 Kafka 实时数据总线,通过 Flink SQL 解决加工,写入上游 Clickhouse、Doris、Iceberg 等存储,提供给客服查问零碎、经营实时剖析、离线数仓等利用场景。
  • 实时报表及实时大屏:咱们会依据业务需要,对重要的指标提供实时大屏服务,同时针对经营基于 BI 报表提供实时指标的利用查看。在社区帖子排序的场景中,数据起源一是客户端埋点上报到 Kafka,二是通过 Flink CDC 抓取业务库的增量数据。为了不引入额定的 KV 存储,同时解决维表更新不及时导致关联失败的问题,咱们将 Flink 流式生产 Kafka 的工作和 Flink CDC 抓取业务库的工作合并成了同一个工作,采纳 RegularJoin 进行关联。这里咱们对 Flink SQL 进行了拓展,可能管制底层状态细化的生存周期,防止维表状态过期。关联后的数据再通过指标计算,提供给帖子排序服务。
  • 近实时数仓:咱们通过 Flink SQL 实时写入 Iceberg 的形式,实现了日志离线入仓近实时化,数据入仓时效从小时级缩短到了分钟级,离线存储 IO 的波动性也安稳了很多。通过 Flink CDC 对 MySQL 数据库进行全量、增量的同步,联合平台的一键工作生成、主动调优扩缩容、主动提交运行等能力,实现了数据库一键入湖,大幅提高了开发效率、升高了对数据库的压力。近实时数仓的一个典型利用场景是玩家战绩查问。
  • 实时风控:在米哈游,风控团队和实时计算团队分割亲密。风控团队提供了良好的风控引擎,实时计算团队基于风控引擎构建了一套绝对自动化的 API 及工作治理形式,让实时计算平台服务化。具体的利用场景包含登录校验、游戏反作弊、人机校验等。

张剑老师介绍,米哈游在实时计算畛域将来的工作次要包含三个方面:一是平台能力建设,包含 Flink SQL、资源调优、自动化运维、资源弹性等;二是应用场景的摸索,比方提早音讯服务、基于 Flink CDC 的 Binlog 服务、利用级别指标服务等;三是数据湖和 TableStore 的一直实际,包含流批一体与近实时数仓的实际与摸索。

Disney 流媒体广告 Flink 的利用实际

最初一场 Keynotes 议题是由 Disney 广告智能执行总监郝又超老师和 Disney 广告智能实时计算负责人李丁哲老师联结带来的。

郝又超老师首先介绍了 Disney 流媒体广告业务。Hulu 作为美国外乡头部的流媒体平台,最早是由 Disney、Fox、NBC 独特发动成立的。随着 2019 年对 Fox 的收买,Disney 失去了 Hulu 的经营控制权与广告平台的优质资源,开始发力线上流媒体,陆续推出 Disney+、ESPN+、Star+ 等品牌。目前,Disney 流媒体在寰球有 2.35 亿订阅用户(以家庭为单位),已超过 Netflix。Hulu 是以后 Disney 流媒体广告业务的次要起源,每天投放数亿 15 秒、30 秒长的视频广告,而每抉择一个广告都会产生几十甚至上百个事件,对数据平台有着极高的挑战,随着 Disney+ 上 12 月份行将上线广告,这种挑战预期将数倍增长。Disney 流媒体广告数据平台分为数据算法和应用服务两层,其中 Apache Flink 次要利用于数据算法层,对经营数据中的要害指标做实时聚合。

接下来,李丁哲老师分享了 Disney 流媒体广告数据平台中实时数据局部的具体情况。在实时链路中,从零碎及用户侧收集到的数据,由 Flink 进行对立的流式计算,计算出的指标通过数据接口裸露给业务平台、运维平台、广告服务器等。在离线链路中,应用 Spark 生成离线报表和对外数据输入,应用 Flink 进行指标回填等解决。

李丁哲老师还分享了 Disney 流媒体广告应用 Flink 的三个实时利用场景。

  • 广告决策漏斗:广告决策是一个简单的过程,须要从宏大的广告池中,通过粗排、精排以及一系列过滤条件,抉择出最适宜用户的广告。为了对这个简单的过程进行谬误排查,咱们将其形象成漏斗模型,对广告的投放机会、定向胜利与否、是否被过滤、最终是否投放胜利、投放失败起因等信息进行展现。咱们应用 Flink 将从广告服务器获取到的决策信息进行解码、关联,还原出决策漏斗并交由前端展现。在离线链路中咱们实际了 Flink 的流批一体,应用同一套代码在实时数据呈现问题时进行纠错与数据回填。
  • 广告曝光监控:广告主通常会提出一些广告投放的要求,比方针对特定人群投放、限度同用户同时间段内的投放次数、防止和竞品广告同时呈现等。针对这些需要,咱们研发了广告曝光监控平台,让广告主能够查看其广告投放的相干信息。在这个场景中,咱们应用 Flink 对来自广告零碎和客户端的上下文信息和用户行为进行关联和维度加强,生成一系列的事实指标,并基于特定规定计算出更多衍生指标。
  • 广告零碎大屏:面相管理层与业务方,提供对于广告零碎与广告投放状况的全局洞察能力。来自事实数据源的数据,通过 Flink 的解决,通过指标接口裸露进去,再依据不同的业务规定进行聚合,最终投放给前端做大屏展现。

李丁哲老师介绍,Disney 流媒体广告的实时数据平台搭建在云上,部署在 Kubernetes 容器编排零碎上,应用 Flink Operator 治理 Flink 集群,实际了 Gang Scheduler、流批作业混部、基于队列的弹性扩缩容等技术。

在议题的最初,郝又超老师分享了 Flink 将来在 Disney 流媒体广告平台上的一些利用场景布局,包含全流批一体、OLAP、实时归因、流式机器学习等。

总结

本次大会上,咱们欣慰地看到 Apache Flink 社区仍在继续凋敝地向前倒退:社区建设方面,寰球与中文社区规模与活跃度均屡翻新高;技术成长方面,状态、容错、Shuffle、数据集成、机器学习等方向都在继续翻新,面向未来流式数仓的流批一体存储 Flink Table Store 也获得了喜人的停顿;行业利用方面,正有越来越多不同行业的公司退出到 Flink 生产实践的队伍中,将技术积攒与新的需要源源不断地回馈到社区。让咱们独特期待 Apache Flink 越来越好~

Flink Forward Asia 2022

本届 Flink Forward Asia 更多精彩内容,可点击浏览原文或扫描图片二维码观看全副议题的视频回放及获取 FFA 2022 峰会材料!

正文完
 0