更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群
基于迁徙学习的基础设施老本优化框架,火山引擎数智平台与北京大学联结论文被 KDD 收录近期,第 29 届国内常识发现与数据挖掘大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,以下简称 KDD)在美国加州长滩举办。由火山引擎数智平台,北京大学计算机学院和蒙特利尔学习算法研究所等单位单干的论文 Rover: An online Spark SQL tuning service via generalized transfer learning(以下简称 Rover)胜利被大会收录。Rover 由北京大学的沈彧和火山引擎数智平台的任鑫宇杨负责独特第一作者,北京大学的崔斌传授负责通信作者。
图 1:论文题目和作者信息
KDD 会议始于 1989 年,是数据挖掘畛域历史最悠久、影响最大的顶级学术年会。KDD 宽泛的交叉学科性和应用性吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言解决、人机交互、社会网络计算、高性能计算及大数据挖掘等泛滥畛域的研究者,为来自学术界、企业界和政府部门的相干人员提供了一个学术交流和成绩展现的现实场合。
Apache Spark 作为支流的分布式计算框架,在工业界失去了宽泛的利用,字节跳动外部宏大的例行计算工作每天生产数百万 core CPU 及数十 PB RAM 规模的计算资源。每个 Spark 工作通过 200 余个互相关联的配置参数启动,然而,因为平台默认配置不足弹性,工作环境多样,终端用户经验不足等问题,相当数量的计算资源常因不合理的配置而被节约。传统上,有教训的大数据工程师能够根据每个工作的运行状况,对其配置进行人工剖析和调整。然而,这种人工调优形式在面临在高维参数组合时往往难以见效,并伴有运维迭代老本昂扬等问题,使得其难以被规模化。
为了解决此问题,火山引擎的工程师和北京大学的研究者一起设计了一种联合机器学习办法与人类专家常识的基础设施老本优化框架(如图 2 所示),该框架以贝叶斯优化算法为根底,应用高斯过程作为代理模型学习配置参数集与工作老本 / 运行时长的关系,并通过可信赖的迁徙学习机制,从人类专家常识编码中取得安全性和可解释性(如图 2 中 Expert-assisted Optimization 局部所示),并从类似的历史工作中取得额定的收敛减速个性(如图 2 中 Controlled History Transfer 局部所示)。
图 2:Rover 优化器的整体架构
该计划能自动化辨认和调整例行计算工作的配置参数集,在不毁坏工作服务等级的前提下压缩资源节约,无效节俭运行老本。教训证,Rover 在公开工作集及字节跳动外部的理论部署中,比照以后业内当先的解决方案,在极限收益,收敛速度和安全性方面均有进一步晋升。
图 3: 比照 4 种业内当先的解决方案,Rover 在公开工作集上的内存节约比例更为显著
Rover 是基于火山引擎 DataTester 在字节跳动外部利用的主动调参系统优化器内核、减少迁徙学习机制演变而来,并通过主动调参平台的配套服务来施行和运行的,目前该项钻研曾经在字节跳动上万个 Spark 数据开发工作上失去利用,已帮忙公司节约 700 万元 / 年的资源老本。将来,这项技术将在字节跳动外部的大数据计算基础设施上大规模部署,预计每年将会节约近十亿元,还将通过火山引擎数智平台为内部企业提供通用优化器服务,可利用于基础设施老本优化,线上算法超参数优化等多种场景。
据理解,火山引擎数智平台(VeDI)是新一代企业数据智能服务平台,旗下的 A / B 测试产品 DataTester 经验了字节跳动的 10 年打磨,目前服务于字节跳动外部 500 余个业务线,也服务了包含美的、失去、凯叔讲故事等在内的上百家内部企业,为企业业务的用户增长、转化、产品迭代、经营流动等各个环节提供迷信的决策依据,将成熟的“数据驱动增长”教训赋能给各行业。
点击跳转 火山引擎 A / B 测试 理解更多