运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产
品技术支撑的 4 大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。
一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。
运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。
对于初创公司,运维部和系统部一般是合二为一的,相关工作由同一批人负责,界限可能不是很明显。大型公司对运维工作的要求更高,需要有更精细的分工,因此机房 / 网络 / 操作系统相关的底层工作分离出来由专人负责,成为系统管理部,而上层和应用产品相关的工作则由运维负责,成为运维部。以下从互联网产品生命周期和运维涉及的技术分别来看分工较细的大型互联网公司中运维工作的职责。
随着技术发展,运维自动化也成了一个不可阻挡的趋势,云计算的发展带来的是 docker 和 kubenetes 这种大大降低运维成本的技术,与此同时,基于这些技术不断的发展的自动化运维 Devops 也不断深入人心,如今的运维技术也渐渐地进入了新的时代。今天我们就来推荐几本关于运维方面技术的优秀书籍。
运维系列书单
DevOps 开发运维训练营
本书将全面完整地介绍智能运维的技术体系,以及大企业的智能运维实践经验,让读者更加了解运维技术的现状和发展方向,在实践中能够有所借鉴。同时,也能帮助运维工程师在一定程度上了解到机器学习的常见算法模型,以及如何将它们应用到运维工作中。全书共分 4 篇。
第 1 篇运维发展史,将重点阐述当前运维的发展现状及面临的技术挑战;第 2 篇智能运维基础设施,将重点讲述大数据场景下的数据存储、大数据处理和分析的方法与经验,以及海量数据多维度多指标的处理分析技术;第 3 篇智能运维技术详解,将重点关注在新时期大数据时代下,如何进行智能化的运维体系建设;第 4 篇技术案例详解,为大家梳理了通过开源框架 ELK 快速构建智能监控系统的整体方案,还将分享微博平台和微博广告两个不同业务场景下智能监控系统的技术实践。
作者简介
彭冬:微博广告基础架构团队负责人、技术专家,商业大数据平台及智能监控平台发起人,目前负责广告核心引擎基础架构、Hubble 智能监控系统、商业基础数据平台(D)等基础设施建设。
关注计算广告、大数据、人工智能、高可用系统架构设计、区块链等方向。在加入微博之前,曾就职于百度负责大数据平台建设,曾担任趣点科技联合创始人兼 CTO 等职位。毕业于西北工业大学,曾在国内外知名期刊发表多篇学术论文,拥有 9 项发明专利。
朱伟 @kimi:微博广告 SRE 团队技术负责人,高级运维工程师,2016 年 4 月加入微博,目前主要负责微博广告智能监控报警平台和服务治理等项目的建设与研究。
刘俊:微博平台部监控技术负责人,负责微博平台、PC 微博大规模监控系统的建设,主要关注实时大数据、运维自动化、智能化方向。2014 年加入微博,之前曾在新浪、搜狐等公司从事运维监控方面的工作。
Linux 运维之道
随着开源技术的不断进步与创新,整个 IT 行业中越来越多的企业愿意采用开源产品,而基于 Linux 的操作系统为这些开源产品提供了一个很好的操作平台。丁明一编著的《Linux 运维之道(第 2 版)》将围绕 Linux 操作系统这样一个基础平台,讲解如何使用操作系统实现各种开源产品的应用案例。全书主要从运维工作中的应用服务入手,全面讲解基本 Linux 操作系统以及各种软件服务的运维工作。
现在的商业环境是一个充满竞争的环境,很多企业的业务量在不断地增长,而对服务质量的要求也越来越高。特别是互联网企业为了满足客户非常高的需求,提升用户使用体验。IT 部门维护的设备往往数以万计,如此庞大的设备维护量,通常会让 IT 管理人员头疼不已。
本书介绍的自动化运维的内容可以让我们快速掌握大规模批量处理的简单方法。仅仅依靠自动化运维还不足以发挥出这些设备能效,因此,我们还需要将这个服务器设备有机地结合在一起,为客户提供安全、快捷、高效的服务,于是集群技术应运而生。本书后面将围绕集群技术介绍目前比较流行的开源产品部署案例。
丁明一,领航众达教育创始人,红帽认证高级讲师(RHCI),有着丰富的 Linux 系统运维以及讲师经验,培养学生两千余名。精通 Linux 系统管理、生产环境大规模集中部署 Linux 环境、建立 Shell 脚本自动化管理平台。
主持部署多个 LAMP 网络服务平台、构建管理多个大型 NginxWeb 服务平台,项目实施中利用 Cacti 与 Nagios 监控平台实现自动故障报警。对企业集群环境及高性能、高可用构架有深入的研究。
拥有丰富的虚拟化技术使用经验:Xen、KVM、VMware,利用虚拟化技术构建高效、绿色节能机房。对安全与调优有独特的理解,精通 Linux 防火墙、SELinux 安全、系统性能调优化。翻译过多篇国外云计算解决方案文档,熟悉国外主流云计算技术发展。
智能运维:从 0 搭建大规模分布式 AIOps 系统
够有所借鉴。同时,也能帮助运维工程师在一定程度上了解到机器学习的常见算法模型,以及如何将它们应用到运维工作中。全书共分 4 篇。
第 1 篇运维发展史,将重点阐述当前运维的发展现状及面临的技术挑战;第 2 篇智能运维基础设施,将重点讲述大数据场景下的数据存储、大数据处理和分析的方法与经验,以及海量数据多维度多指标的处理分析技术;第 3 篇智能运维技术详解,将重点关注在新时期大数据时代下,如何进行智能化的运维体系建设;第 4 篇技术案例详解,为大家梳理了通过开源框架 ELK 快速构建智能监控系统的整体方案,还将分享微博平台和微博广告两个不同业务场景下智能监控系统的技术实践。
作者简介
彭冬:微博广告基础架构团队负责人、技术专家,商业大数据平台及智能监控平台发起人,目前负责广告核心引擎基础架构、Hubble 智能监控系统、商业基础数据平台(D)等基础设施建设。
关注计算广告、大数据、人工智能、高可用系统架构设计、区块链等方向。在加入微博之前,曾就职于百度负责大数据平台建设,曾担任趣点科技联合创始人兼 CTO 等职位。毕业于西北工业大学,曾在国内外知名期刊发表多篇学术论文,拥有 9 项发明专利。
朱伟 @kimi:微博广告 SRE 团队技术负责人,高级运维工程师,2016 年 4 月加入微博,目前主要负责微博广告智能监控报警平台和服务治理等项目的建设与研究。
刘俊:微博平台部监控技术负责人,负责微博平台、PC 微博大规模监控系统的建设,主要关注实时大数据、运维自动化、智能化方向。2014 年加入微博,之前曾在新浪、搜狐等公司从事运维监控方面的工作。
王莉:University of Georgia 硕士研究生,主要研究用机器学习方法,识别植物被水淹没的季节性规律,研究成果已发表在 SCI 高影响因子期刊。2017 年加入微博广告团队,致力于用数据分析和机器学习模型,优化广告业务策略,洞悉商业价值。
陆松林:微博广告数据仓库负责人,高级研发工程师,先后就职于搜狐、爱奇艺,主要研究数据仓库、数据治理相关技术。
车亚强:微博广告大数据开发工程师,曾在百度外卖负责实时流、微服务相关研发工作,目前主要研究方向为实时流、微服务架构设计。