云计算 关于云计算:如何扩展单个Prometheus实现近万Kubernetes集群监控 TKE团队负责私有云,公有云场景下近万个集群,数百万核节点的运维管理工作。为了监控规模如此宏大的集群联邦,TKE团队在原生Prometheus的根底上进行了大量摸索与改良,研发出一套可扩大,高可用且兼容原生配置的Prometheus集群零碎,实践上可反对有限的series数目和存储容量,反对纳管TKE集群,EKS集群以及自建K8s集群的…
云计算 关于云计算:Pod-Terminating原因追踪系列之三让docker事件处理罢工的cancel状态码 本篇为Pod Terminating起因追踪系列的第三篇,前两篇别离介绍了两种可能导致Pod Terminating的起因。在解决现网问题时,Pod Terminating属于比拟常见的问题,而本系列的初衷便是记录导致Pod Terminating问题的起因,心愿可能帮忙大家在遇到此类问题时,开辟排查思路。
云计算 关于云计算:让不确定性变得有弹性基于弹性容器的AI评测实践 AI的场景丰富多彩,AI的评估办法百花齐放,这对于设计一套更通用的评测框架来说,是一个极大的挑战,须要兼顾不同的协定,不同的模型环境,甚至是不同的操作系统。本文分享了咱们在AI评测路上的一些实践经验,重点介绍了咱们在解决执行环境的不确定性方面所做的一些尝试。弹性容器是咱们以后最合适的解决方案,冀望对大…
云计算 关于云计算:Nginx-Ingress-on-TKE-部署最佳实践 开源的 Ingress Controller 的实现使用量最大的莫过于 Nginx Ingress 了,功能强大且性能极高。Nginx Ingress 有多种部署形式,本文将介绍 Nginx Ingress 在 TKE 上的一些部署计划,这几种计划的原理、各自优缺点以及一些选型和应用上的倡议。
云计算 关于云计算:揭秘|一探腾讯基于Kubeflow建立的多租户训练平台背后的技术架构 下图的利用大多数人常常会用到,比方微信、腾讯视频、游戏等等APP,其背地承载的技术也不尽相同,波及了NLP、计算机视觉、强化学习、语音等不同的AI技术。
云计算 关于云计算:FinOps是云的运营模式确保在云的花费获得最大价值 Linux基金会为减少新兴云财务管理学科的教育和最佳实际而做出的新致力吸引了开创成员;来自Apptio、谷歌和VMware的代表被任命为新的技术咨询委员会成员。
云计算 关于云计算:MongoDB复制集集群原理详解及部署 MongoDB中的复制集(也被称为正本)是一组保护雷同数据集的mongod过程。正本集提供冗余性及和高可用,是所有生产部署的根底。简略来说,复制集有多台MongoDB组成的一个集群,集群中有一个主节点(Primary)和N个正本节点(Secondary)等,它们有雷同的数据库,如果主MongoDB服务器或者MongoDB实例Down机之后,其它的正本服务器…
云计算 关于云计算:Linux进程管理工具-Supervisor Supervisor装置与配置(linux/unix过程管理工具)Supervisor([链接])是用Python开发的一个client/server服务,是Linux/Unix零碎下的一个过程管理工具,不反对Windows零碎。它能够很不便的监听、启动、进行、重启一个或多个过程。用Supervisor治理的过程,当一个过程意外被杀死,supervisort监听到过程死后,会主动将它重…
云计算 关于云计算:Kubernetes之ConfigMap详解及实践 ConfigMap和Secret是Kubernetes零碎上两种非凡类型的存储卷,ConfigMap对象用于为容器中的利用提供配置文件等信息。然而比拟敏感的数据,例如密钥、证书等由Secret对象来进行配置。它们将相应的配置信息保留于对象中,而后在Pod资源上以存储卷的模式挂载并获取相干的配置,以实现配置与镜像文件的解耦。
云计算 关于云计算:Kubernetes集群使用网络存储NFS NFS即网络文件系统Network File System,它是一种分布式文件系统协定,最后是由Sun MicroSystems公司开发的类Unix操作系统之上的一款经典网络存储计划,其性能是在容许客户端主机能够像拜访本地存储一样通过网络拜访服务端文件。