关于java:入门Flink很简单

我是3y，一年CRUD教训用十年的markdown程序员长年被誉为职业八股文选手

最近如果拉过austin我的项目代码的同学，可能就会发现多了一个austin-stream模块。其实并不会意外，因为这一切都在打算当中进行。

这个模块次要是接入流式解决平台（flink），用于实时计算荡涤数据给到业务以及零碎维护者更不便去应用音讯推送平台austin。

这篇文章次要来聊聊接入的背景以及我肤浅的教训吧

01、为什么流式解决平台

我在老东家有过解决数据相干的教训，也看到过站内广告「成果数据」的倒退历程。

所谓成果数据，说白了则是商家在平台上投放了广告，咱们须要给商家看到广告带来的成果，最外围的是「曝光」「点击」「订单」，基于这几项数据再聚合些类roi的指标。

上面来聊聊这个「倒退历程」，看完这个过程或者能够更好地理解为什么须要流式解决平台

1、PHP阶段：在最后时业务以及系统结构都比较简单，把「点击」和「订单」都存入数据库表，一把梭通过定时工作全量聚合，失去最终的成果数据，而「曝光」数据则是次日再写入成果数据表中。

在这个阶段里，因为数据量不大，通过定时工作全量来聚合数据也不是不能够，那时候商家都能承受该业务的提早性

2、Java阶段：随着业务的倒退，逐步摒弃PHP化并且广告三层构造成型、数据量日益晋升、站内中间件服务平台也倒退起来。通过中间件团队提供的生产binlog框架，从架构上扭转聚合模式，并这个阶段能够更快地给商家展现成果数据，大略1min出成果数据

3、流式解决平台阶段：流式解决平台是对「计算」或者说解决数据时的形象，在这形象根底上它更能充分利用零碎的资源（一个大的工作被拆分多个小工作，而后散发到不同的机器上执行）

4、广告成果数据是先用的Storm作为流式解决平台，数据跑了几年都挺稳固的，性能吞吐量上也是满足业务应用的。起初Flink衰亡，反对SQL、Exactly-Once、流批一体化等，随着公司内推广，我将广告成果数据从Strom改至Flink体系上，大略秒级出成果数据。（其实还能够压缩，但须要兼顾DB的性能老本，只有业务上能承受即可。Traff-off！）

在第三点我提出了「数据处理时的形象」，我是这样了解的。在Storm里，定义spout为输出，bolt为两头解决或输入，而两头的数据流转为tuple，用shuffle机制来控制数据的流向

在Flink里，就有更加明确的语义来阐明输出和输入了（程序的API也更有语义性）

这些流解决平台都会数据处理进行了形象，让咱们更加不便且高效去解决数据，比方个别会以下的性能：

02、austin哪里用到了流式解决平台

在后面austin零碎曾经设计了一部分的埋点信息了，在日志上都曾经打印了下来。

但针对这一部分数据，迟迟没有做解决（不过之前有一起跟着学austin的小伙伴给我截了日志，我一眼就晓得是哪里出了问题）

而接入流式解决平台就能对这一部分数据进行荡涤（依据下发者维度、依据模板音讯维度等等），失去荡涤后的数据再给到接口去展现或者排查问题应用，能大大提高排查或者业务方的应用效率

03、Flink入门

Flink从2018年开始风行，当初曾经有很多的公司都在用Flink作为实时大数据处理的流式平台。至于我为什么会抉择Flink的话，起因有以下：

1、我懂点儿Flink（次要是懒得学其余的了，目前还够用）

2、Flink倒退了几年，成熟且被很多大公司用，社区沉闷

3、Flink的官网文档挺不错的，适宜学习和排查问题

首先咱们装置下Flink，docker-compose.yml文件内容：

version: "2.2"services:  jobmanager:    image: flink:latest    ports:      - "8081:8081"    command: jobmanager    environment:      - |        FLINK_PROPERTIES=        jobmanager.rpc.address: jobmanager      - SET_CONTAINER_TIMEZONE=true      - CONTAINER_TIMEZONE=Asia/Shanghai      - TZ=Asia/Shanghai  taskmanager:    image: flink:latest    depends_on:      - jobmanager    command: taskmanager    scale: 1    environment:      - |        FLINK_PROPERTIES=        jobmanager.rpc.address: jobmanager        taskmanager.numberOfTaskSlots: 2      - SET_CONTAINER_TIMEZONE=true      - CONTAINER_TIMEZONE=Asia/Shanghai      - TZ=Asia/Shanghai

完了之后间接docker-compose up -d就能够启动flink了，咱们拜访在浏览器输出ip:8081端口就能看到flink的后盾了

简略看了下后盾，就能晓得咱们在本地开发完打包成jar就能够在Submit New Job提交jar包给Flink去跑了

而在写代码的时候，能够参考官网文档给出的mvn命令去构建Flink的根底环境

当然啦，当初我曾经搭好了，你们能够间接拉代码下来看austin-stream模块就完事了。如果你们是本人从零搭的话可能还要留神的是，pom里的plugin须要改变（不然打包会失败的），可参考我的pom文件

04、austin代码

从目前的代码构造和逻辑上看，还是非常简单的，没有学过Flink的同学应该都能看懂：

目前次要实现了将数据实时聚合到Redis，分了两个维度：用户和音讯模板（对应的Redis构造都曾经写在了代码的正文上了）

跟着做austin我的项目的小伙伴，只有在kafka创立对应的topic(我这里定义的topicName是austinLog)，并且在AustinFlinkConstant中填写Kafka的Broker信息以及Redis信息后，编译打包就完了。

提交到Flink平台之后就能够跑了：

05、后续

通过Flink的解决曾经把数据写入到Redis里边了，最近我曾经在写Controller层开发接口在页面上将荡涤后的数据在页面上做展现了。

从后面的页面实现上如果有理解过的同学可能就晓得我用的是低代码平台amis，而amis我看了下图表的文档用的是echarts进行渲染的。

应该问题不大，过两天预计就开发完了，次要就是适配参数的问题了，到时候看起来应该就算比拟残缺了。

最近曾经有小伙伴提了pull request写了微信服务号的接入了，我曾经merge了代码，但还没调试。次要比拟麻烦的是，我没有营业执照，就不好开服务号进行调试，我前面再想想方法。

明天就聊到这吧，对Flink感兴趣的同学能够看看我以往的几篇文章和官网入门下，我倡议先能够把austin的代码先拉下来，部署一把本人体验体验，而后再看实践的常识。

1、Flink入门

2、Flink背压机制

3、Flink CheckPoint机制

都看到这里了，点个赞一点都不过分吧？我是3y，下期见。

关注我的微信公众号【Java3y】除了技术我还会聊点日常，有些话只能轻轻说~ 【对线面试官+从零编写Java我的项目】继续高强度更新中！求star！！原创不易！！求三连！！

austin我的项目源码Gitee链接：gitee.com/austin

austin我的项目源码GitHub链接：github.com/austin