关于镜像加速:蚂蚁安全科技-Nydus-与-Dragonfly-镜像加速实践-龙蜥技术
编者按:本文具体介绍蚂蚁平安科技应用龙蜥社区技术进行镜像减速的实际过程,能够让您理解如何基于龙蜥社区推出的容器镜像,Nydus 与 Dragonfly 镜像减速技术和 LifseaOS 为容器的启动减速。文章转自金融级分布式架构,以下为全文: 01 背景简介ZOLOZ是龙蜥社区理事单位蚂蚁团体旗下的寰球平安风控平台,通过业内当先的生物辨认、大数据分析和人工智能技术,为用户和机构提供平安又便捷的平安风控解决方案。ZOLOZ 已为中国、印尼、马来西亚、菲律宾等 14 个国家和地区的 70 余家合作伙伴提供数字化转型过程中的平安风控技术支持。目前,曾经笼罩金融、保险、证券、信贷、电信、公众服务等畛域,累计服务用户超 12 亿。 随着 Kubernetes 和云原生的大暴发,ZOLOZ 利用开始在私有云上进行大规模容器化部署。ZOLOZ 业务的镜像通过长期保护和更新,无论是镜像层数还是整体大小都达到了一个较大的量级(数百 MB 或者几个 GB)。特地是 ZOLOZ AI 算法推理利用的根底镜像大小要远大于个别利用镜像(Docker Hub 上 PyTorch/PyTorch:1.13.1-CUDA 11.6-cuDNN 8-Runtime 有 4.92GB,同比 CentOS:latest 只有约 234MB),对于容器冷启动,即在本地无镜像的状况下,须要先从 Registry 下载镜像能力创立容器,在生产环境中,容器的冷启动往往耗时数分钟,并且随规模扩大会导致 Registry 因集群内网络拥挤而无奈疾速地下载镜像,如此宏大的镜像给利用的更新和扩容等操作都带来了不少挑战。在私有云上容器化继续推动的当下,ZOLOZ 利用次要遇到了三大挑战: 1.算法镜像大,推送到云上镜像仓库耗时长,开发过程中,在应用测试环境进行测试时,往往心愿疾速迭代,疾速验证,然而每次改完一个分支公布验证都要通过几十分钟,开发效率非常低下。 2.拉取算法镜像耗时长,在集群扩容大量机器拉取镜像文件会容易导致集群网卡被打满,影响业务失常运行。 3.集群机器拉起工夫长,难以满足流量突增时,弹性主动扩缩容。 尽管也尝试过各种折中的解决方案,但这些计划都有缺点,咱们当初联合蚂蚁、阿里云、字节跳动等多个技术团队打造了一套更通用的私有云上解决方案,该计划革新成本低,性能好,其中大部分技术都在龙蜥社区中发动、倒退、开源,目前看来是比拟现实的计划。 02 术语及定义OCI:Open Container Initiative,凋谢容器打算是一个 Linux 基金会我的项目,由 Docker 在 2015 年 6 月启动,旨在为操作系统级虚拟化(最重要的是 Linux 容器)设计凋谢规范。 OCI Manifest:遵循 OCI Image Spec 的制品。 BuildKit:是 Docker 公司出品的一款更高效、Docekrfile 无关、更符合云原生利用的新一代 Docker 构建工具。 ...