共计 2267 个字符,预计需要花费 6 分钟才能阅读完成。
简介:本文讲述了微博机器学习平台和深度学习平台的业务性能和云上实际,分析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。
作者:新浪微博数据计算平台零碎架构师 曹富强
本文讲述了微博机器学习平台和深度学习平台的业务性能和云上实际,分析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。
微博介绍
微博是 2008 年上线的,中国头部、风行的社交媒体平台,提供人们在线创作、分享和发现优质内容的服务,微博的大规模机器学习平台可反对千亿级参数、百万 QPS 调用。目前微博的日活是 2.22 亿,月活是 5.16 亿。
微博机器学习平台(WML)劣势
微博机器学习平台的特点是样本规模大,百亿级样本,实时性比拟高,是分钟级,而后模型规模是百亿级,模型实时性依据不同场景有小时级、分钟级和秒级。作业的稳定性的话要求是三个 9,平台业务多,场景丰盛迭代快。
微博机器学习平台(WML)CTR 模型
微博机器学习平台的 CTR 模型通过数字版本的迭代,从 1.0 的离线机器学习到 3.0 的离线和深度,到 5.0 的在线机器学习、离线机器学习和深度机器学习联合。再到目前咱们是往在线深度学习方向倒退。总体来说通过历史迭代,目前撑持的参数规模达千亿级,服务峰值达百万 QPS,模型更新是 10 分钟量级。
微博机器学习平台(WML)架构
咱们看一下微博机器学习平台的架构,微博机器学习平台为 CTR、多媒体等各类机器学习和深度学习算法,提供从样本解决、模型训练、服务部署到模型预估的一站式服务。总体的话是基于在线计算集群,离线计算集群和高性能计算集群。咱们通过资源的 WeiBox 调度框架和 WeiFlow 工作流引擎,计算平台的话是 WeiLearn 框架集成的 Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了诸多丰盛的算法。基于这些算法,训练的模型,咱们入到咱们 WeiPS 模型库,而后通过 WeiServing 对外提供在线推理服务。
微博机器学习在阿里云上实际
咱们的阿里云上实际应用了 Flink、MaxCompute、Alink、PAI。基于这些服务提供了热门微博、Feed 流、绿洲举荐,应用 MaxCompute 实现在雷同规模下万亿样本百亿特色全量训练,比 Hadoop 集群晋升 10 倍。反对从天级到分钟级的实时热门微博、Feed 流业务举荐及搜寻样本施行训练、上线,业务举荐成果晋升 10%。基于 Flink 搭建了实时计算平台,集成了作业提交端 UI/WeiClient、作业管理、资源管理、日志零碎、监控报警零碎等各链路,作业规模上千。整体来说阿里云建设机器学习有几大劣势:反对大规模解决、算法丰盛、平台成熟运维不便、投入工夫间接聚焦到业务。
微博深度学习平台(WDL)典型业务场景
接下来介绍微博深度学习相干的业务,目前的话在微博的关系流、绿洲、新浪视频举荐、注释举荐流外面都有深度学习的利用。
微博深度学习平台(WDL)架构
基于在线 gpu 的机器,咱们通过 K8s 和 Yarn 治理,而后通过 WeiArena 和 el-submit 提交工作。咱们的 WeiLearn 集成了 TensorFlow、Pytorch 引擎,而后集成了样本库读取和输入的模型库。而后 WeiServing 加载了模型库,对外提供两路服务,一个是通过 AI 服务间接对外提供 AI 输入能力,另外就是咱们的计算服务 WeiStorm,集成了数据流,调用 WeiServing RPC 服务框架,实时生成多媒体特色,对外提供在线服务推理。
微博深度学习平台(WDL)多媒体特色生成
微博机器学习深度平台多媒体特色的生成,只有两条链路,第一路是离线的训练,离线训练模型通过数据源的解决输入到样本库,而后通过咱们 WeiServing 分布式训练模型调用,输入到模型库,这一路的话是一键 CICD、分布式训练、反对多品种的模型。另一路是在线推理,在线推理的话生产多媒体实时数据流,调用咱们的 WeiServingRPC 框架,输入多媒体特色,而后利用到业务,这条链路的话,咱们通过对账零碎、case 追踪、全链路监控去做服务保障,成功率是 99.99%,延时是秒级延时。开发模式是通过 UI 化、配置化、一键部署。
微博深度学习平台(WDL)基本功能
微博深度学习平台产品性能的话,一个是样本库,而后分布式训练,模型库,在线推理服务和计算服务。样本库的话次要是蕴含样本数据管理和样本分布式存储,对在各节点上零散的样本进行对立治理;分布式训练的话,内置罕用深度学习算法并继续新增成熟的算法,标准样本读取,训练 gpu 集群的灵便调度和训练模型的对立存储;模型库的话提供分布式系统和本地两种存储形式,为在线推理服务提供模型;在线推理服务,反对 Python 和 C ++ 模型的一键部署,实现模型推理的服务化以及监控、告警等。可封装为 HTTP 服务,对外间接提供 AI 的能力,实现 AI 能力的间接输入;计算服务,基于外部的多媒体散发零碎,接入多媒体数据流,调用在线推理服务,实时生成多媒体特色。
微博深度学习平台(WDL)业务实际
微博深度学习平台业务实际,晚期的话基于单机训练解决大规模数据时训练周期长,迭代慢,影响业务成果。于是咱们提供了多媒体深度学习服务计划,微博深度学习平台就应运而生,实现了样本存储、离线训练、在线推理及模型存储一体化性能。最终产生的成果和业务价值是:分布式训练极大缩短了训练工夫,为疾速业务迭代提供良好基础;一体化服务让咱们只须要专一于模型算法优化,进步业务效率,整体上为业务赋能和业务承建产生了微小的推动力。
原文链接
本文为阿里云原创内容,未经容许不得转载。