共计 1943 个字符,预计需要花费 5 分钟才能阅读完成。
关注阿里巴巴中间件公众号,后盾回复关键词【FC】查看 ACM SoCC 录用论文!
近日,阿里云函数计算产品团队撰写的对于 Serverless 调度的创新性论文被 ACM SoCC 国内会议长文录用。
去年阿里云函数计算团队首个提出在 FaaS 场景下的去中心化疾速镜像散发技术,团队所作论文被计算机系统畛域的顶级会议 USENIX ATC’21 录用,入选中国计算机协会(CCF)举荐 A 类国内会议列表(详情点击浏览);往年阿里云函数计算一直冲破:公布基于函数画像的调度算法论文并被国内云计算的首要会议 ACM SoCC 录用,真正做到可能保障晋升函数资源利用率的同时,达到性能高稳定性。
ACM Symposium on Cloud Computing(以下简称 SoCC)是由美国计算机协会主办、聚焦云计算技术的一项学术会议,是云计算的首要会议。它会集了对云计算感兴趣的钻研人员、开发人员、用户和实践者,是惟一由 SIGMOD(数据管理特地趣味组)和 SIGOPS(操作系统特地趣味组)联结主办的会议, 这个会议在近些年蓬勃发展,旨在汇集数据库和计算机系统两大畛域的学者,独特推动云计算技术在工业界的钻研与倒退。
此次被录用的论文为《Owl: Performance-Aware Scheduling for Resource-Efficient Function-as-a-Service Cloud》。
此论文灵感诞生于阿里云 Serverless 产品函数计算,函数计算是阿里云的函数即服务 (Function-As-A-Service) 产品。阿里云函数计算是事件驱动的全托管计算服务。通过函数计算,您无需治理服务器等基础设施,只需编写代码并上传。函数计算会为您筹备好计算资源,以弹性、牢靠的形式运行您的代码,并提供日志查问、性能监控、报警等性能。现阶段曾经笼罩了 事件驱动、音视频解决、游戏、物联网、新批发、AI 等理论业务场景,并服务于阿里云、高德、支付宝、淘宝、CBU 等多个业务或我的项目中。
上图是一个经典的 FaaS 调度零碎的架构,调度器负载将不同的函数实例调度到集群中的节点上运行。因为 FaaS 产品函数数量多、函数粒度小、执行工夫短的特点,节点的资源利用率较低。简略地将更多的实例调度到同一个节点上尽管可能肯定水平地晋升资源利用率,然而也带来了资源争抢和性能降落。
论文针对这个问题翻新地提出了基于函数画像的调度算法,在进步资源利用率的同时达到了较好的性能稳定性:
- 对于高频调用的函数,调度器会辨认不同函数实例在同一个节点共置时的性能体现,以此领导函数实例的调度;
- 对于低频调用的函数,调度器会统计其执行过程中的理论资源耗费,以此来领导函数实例的调度,同时调度器会监控函数的执行延时,当呈现延时上升时通过隔离的伎俩进行缓解;
- 调度器还针对闲置的实例进行迁徙,将它们从利用率低的节点迁徙到利用率高的节点以开释闲置节点。
为了评估算法的成果,论文依据生产环境典型的函数负载,形象了 10 个函数,它们笼罩了不同的编程语言、资源耗费、执行时长、内部依赖。列表如下:
试验结果表明,在 100 个节点规模下,OWL 调度算法可能 节俭 43.8% 的资源 ,同时 函数执行延时没有显著的减少:
调度延时也没有明显增加:
目前 OWL 的函数画像能力也曾经利用在函数计算线上环境,并获得了不错的成果。此次论文入选 ACM SoCC,是阿里云在 Serverless 调度畛域的又一次翻新。
附论文信息
录用论文题目:
Owl: Performance-Aware Scheduling for Resource-Efficient Function-as-a-Service Cloud
作者:田黄石,李苏毅,王骜,王威,吴天龙,杨皓然
论文概述:在云计算中,FaaS 是一种十分风行的产品状态,支流的云产商都提供了对应的平台。作为平台构建者咱们察看到大部分的函数实例的 CPU 和内存利用率都不高,造成集群节点的利用率也不高。一个简略的做法是在节点上超额搁置更多的函数实例,然而这可能会带来资源争抢和性能降落。另外,函数的内部依赖也可能导致函数的性能降落。在本文中,咱们设计了 OWL 调度零碎来解决这些问题,达到高资源利用率和性能稳定性。对于低频调用的函数,调度器会统计其执行过程中的理论资源耗费,以此来领导函数实例的调度,同时调度器会监控函数的执行延时,当呈现延时上升时通过隔离的伎俩进行缓解;对于高频调用的函数,调度器会辨认不同函数实例在同一个节点共置时的性能体现,以此领导函数实例的调度。同时调度器还针对闲置的实例进行迁徙,将它们从利用率低的节点迁徙到利用率高的节点以开释闲置节点。咱们实现了 OWL 原型零碎并依据生产环境的负载结构了一组测试集。试验结果表明,OWL 调度零碎可能缩小 43.8% 的资源耗费并无效缓解性能降落。