共计 1680 个字符,预计需要花费 5 分钟才能阅读完成。
1. Flink 概述
Flink 是什么
Flink 是一个面向数据 流解决 和批处理 的分布式 开源计算框架。
无界流 VS 有界流
任何类型的数据都能够造成 流数据,比方用户交互记录,传感器数据,事件日志等等。
Apache Flink 善于解决无界和有界数据集。准确的工夫管制和有状态的计算,使得 Flink 可能运行任何解决 无界流的利用。
流数据分为 无界流和有界流。
1)无界流:有定义 流的开始 ,但没有 定义流的完结,会不停地产生数据,无界流采纳的是流解决形式。
2)有界流:有定义流的 开始 ,也有定义流的 完结,须要在获取所有数据后再进行计算,有界流采纳的是批处理形式。
编程模型
DataSet 个别用来解决有界流数据。
DataStream 个别用来解决无界流数据。
2. 利用场景 - 智能举荐
什么是智能举荐?
定义:依据用户行为习惯所提供的数据,零碎提供策略模型,主动举荐合乎用户行为的信息。
例举:
比方依据用户对商品的点击数据(工夫周期,点击频次),举荐相似的商品;
依据用户的评估与满意度,举荐适合的品牌;
依据用户的应用习惯与点击行为,举荐相似的资讯。
利用案例:
小红书举荐零碎
实时流解决
Flink 解决(新一代大数据处理引擎)
3. 利用场景 - 实时数仓
1)什么是实时数仓
数据仓库(Data Warehouse), 可简写为 DW 或 DWH,是一个宏大的数据存储汇合,通过对各种业务数据进行筛选与整合,生成企业的剖析性报告和各类报表,为企业的决策提供反对。实时仓库是基于 Storm/Spark(Streaming)/Flink 等实时处理框架,构建的具备实时性特色的数据仓库。
2)利用案例
剖析物流数据,晋升物流解决效率。
3)阿里巴巴菜鸟网络实时数仓设计:
4)数仓分层解决架构(也称流式 ETL):
ODS -> DWD -> DWS -> ADS
ODS(Operation Data Store):操作数据层,个别为原始采集数据。
DWD(Data Warehouse Detail):明细数据层,对数据通过荡涤,也称为 DWI。
DWS(Data Warehouse Service):汇总数据层,基于 DWD 层数据,整合汇总成剖析某一个主题域的服务数据,个别是宽表,由多个属性关联在一起的表,比方用户行为日志信息:点赞、评论、珍藏等。
ADS(Application Data Store): 利用数据层,将后果同步至 RDS 数据库中,个别做报表出现应用。
4. 利用场景 - 大数据分析利用
IoT 数据分析
1) 什么是 IoT
物联网是新一代信息技术,也是将来倒退的趋势,英文全称为:Internet of things(IOT),顾名思义,物联网就是万物相联。物联网通过智能感知、辨认技术与普适计算等通信感知技术,广泛应用于网络的交融中,也因而被称为继计算机、互联网之后世界信息产业倒退的第三次浪潮。
2) 利用案例
物联网设施经营剖析:
华为 Iot 数据分析平台架构:
智慧城市
城市中汽车越来越多,川流不息,高德地图等 APP 通过技术手段采集了越来越多的摄像头、车流的数据。
但路线却越来越拥挤,越来越多的城市开始通过大数据技术,对城市履行智能化治理。
2018 年,杭州采纳 AI 智慧城市,均匀通行速度进步 15%,监控摄像头日报警次数高达 500 次,辨认准确率超过 92%,AI 智慧城市通报占整体 95% 以上,在中国城市交通堵塞排行榜,杭州从中国第 5 名降至 57 名。
金融风控
危险是金融机构业务固有个性,与金融机构相伴而生。金融机构盈利的起源就是承担风险的危险溢价。
金融机构中常见的六种危险:市场危险、信用风险、流动性危险、操作危险、名誉危险及法律危险。其中最次要的是 市场危险和信用风险。
线上信贷流程,通过后盾大数据系统进行反欺诈和信用评估:
电商行业
用户在电商的购物网站数据通过实时大数据分析之后,通过大屏汇总展现,比方天猫的双 11 购物流动,通过大屏,将全国上亿买家的订单数据可视化,实时性的动静展现,蕴含总览数据,流式 TopN 数据,多维区域统计数据等,极大的加强了对海量数据的可读性。
TopN 排行:
区域统计:
本文由 mirson 创作分享,如需进一步交换,请加 QQ 群:19310171 或拜访 www.softart.cn