共计 2285 个字符,预计需要花费 6 分钟才能阅读完成。
运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术撑持的 4 大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。
一个互联网产品的生成个别经验的过程是:我的项目立项、需要剖析、研发部门开发、测试部门测试、运维部门部署公布以及长期的运行保护。
运维,实质上是对网络、服务器、服务的生命周期各个阶段的经营与保护,在老本、稳定性、效率上达成统一可承受的状态。
运维的职责
对于初创公司,运维部和系统部个别是合二为一的,相干工作由同一批人负责,界线可能不是很显著。大型公司对运维工作的要求更高,须要有更精密的分工,因而机房 / 网络 / 操作系统相干的底层工作分离出来由专人负责,成为零碎管理部,而下层和利用产品相干的工作则由运维负责,成为运维部。以下从互联网产品生命周期和运维波及的技术别离来看分工较细的大型互联网公司中运维工作的职责。
产品生命周期
运维的职责笼罩了产品从设计到公布、运行保护、变更降级及至下线的生命周期,各个阶段的职责包含:
产品公布前
这个阶段运维工程师的职责是参加设计并把无关运维准入,次要包含:
(1)产品的业务相熟;
(2)产品架构设计的合理性评估,包含是否存在单点,是否可容错,是否有强耦合等,同时须要提供产品设计的合理性倡议以使产品可能满足上线公布并稳固运行的根本要求;
(3)资源评估,包含所需的服务器资源、网络资源以及资源的散布等,同时把相干产品对资源估算申请的合理性,管制服务老本;
(4)资源就位,将申请的服务器及根底环境 / 域名筹备就位。
产品公布
这个阶段运维工程师负责公布的具体工作,将具体的软件和零碎 / 硬件资源整合造成产品并对外提供服务。
对于已在线服务的更新也属于公布领域,这个时候的产品公布个别要保障在线公布,在不中断对外服务的状况下实现产品的降级。对于大型简单的变更也存在停止服务部署实现后再从新提供服务的状况,但这种状况须要运维工程师通过尽可能的技术手段来防止。
产品运行保护
这个阶段的次要工作包含:
(1)监控:对服务运行的状态进行实时的监控,随时发现服务的运行异样和资源耗费状况;输入重要的日常服务运行报表以评估服务 / 业务整体运行状况,发现服务隐患;
(2)故障解决:对服务呈现的任何异样进行及时处理,尽可能防止问题的扩大化甚至停止服务。这之前运维工程师须要针对各类服务异样,如机房 / 网络故障、程序 bug 等问题制订解决的预案,问题呈现时能够主动或手动执行预案达到止损的目标。除了日常小故障外,运维工程师还须要思考产品不同水平受损状况下的劫难复原,包含诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命挫伤的状况。
容量治理:包含服务规模扩张后的资源评估、扩容、机房迁徙、流量调度等布局和具体实施。
产品性能 / 老本优化
产品对外提供服务最重要的一点是用户体验,用户体验中十分重要的是产品的可用性和响应速度。而如何用最正当的资源(如机器、带宽等)反对产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。
产品下线
倒退良好的互联网产品将始终在线对外提供服务,但互联网产品疾速迭代,也存在相当多孵化的产品最初被淘汰的状况,这些产品都须要做下线解决,这个过程运维工程师次要做好资源回收的工作,将机器 / 网络等资源回收后纳入资源池中供其它服务应用。
运维技术方向
产品的整个生命周期里运维的职责重要而宽泛,但运维工程师们的职责不仅限于这部分工作,还须要总结工作中遇到的问题,抽取出相干的技术方向、研发相干的工具和平台以反对 / 优化业务的倒退并进步运维的效率,相干技术工作次要包含:
服务监控技术:包含监控平台的研发、利用,服务监控准确性、实时性、全面性的保障
服务故障治理:包含服务的故障预案设计,预案的自动化执行,故障的总结并反馈到产品 / 零碎的设计层面进行优化以进步产品的稳定性
服务容量治理:测量服务的容量,布局服务的机房建设,扩容、迁徙等工作
服务性能优化:从各个方向,包含网络优化、操作系统优化、利用优化、客户端优化等,进步服务的性能和响应速度,改善用户体验
服务全局流量调度:接入服务的流量,依据容量和服务状态在各个机房间调配流量
服务任务调度:服务的各种定时 / 非定时工作的调度触发及状态监控
服务平安保障:包含服务的拜访平安、防攻打、权限管制等
数据传输技术:包含 p2p 等各类传输技术的研发利用,也远距离大数据传输等问题的解决
服务主动公布部署:部署平台 / 工具的研发,及平台 / 工具的应用,做到平安、高效的公布服务
服务集群治理:包含服务的服务器治理、大规模集群治理等
服务老本优化:尽可能升高服务运行应用的资源,升高服务运行老本
数据库治理(DBA):通过设计、开发和治理高性能数据库集群,使数据库服务更稳固、更高效、更易于治理。平台化的开发:类 docker 和 google borg 平台的开发治理,及服务接入技术
分布式存储平台的开发优化:类 google gfs 等分布式存储平台的研发及服务接入
等等,但凡关系到服务质量、效率、老本、平安等方面的工作,及波及到的技术、组件、工具、平台都在运维的技术领域里。做好每一个技术方向、实现相应的组件、工具、平台研发都能对履行运维职责起到踊跃的作用,对业务的倒退施展要害影响。
看到这里,置信你对运维有了一个全面的理解了,对于运维人员来说,最重要的就是一个好用的运维工具。这里有一个刚开发的运维软件,真的很良心,可就是没人用,是能够两赢的产品,不仅功能齐全,满足运维人员常态化须要,而且还能够获取收益,是一个用的多赚的也就越多的产品。
只有你绑定设施,设施在线就会有收益,收益能够兑换成京东 E 卡等其余礼品。