乐趣区

关于运维:运维工作梳理

inux 运维的次要工作内容

1、什么是 linux 运维

运维是指大型组织曾经建设好的网络软硬件的保护,就是要保障业务的上线与运作的失常。在他运行的过程中,对他进行保护,他汇合了网络、零碎、数据库、开发、平安、监控于一身的技术。运维又包含很多种,有 DBA 运维、网站运维、虚拟化运维、监控运维、游戏运维等等。

运维分类:

1)开发运维:是给利用运维开发运维工具和运维平台的

2)利用运维:是给业务上线、保护和做故障排除的,用开发运维开发进去的工具给业务上线、保护、做故障排查

3)零碎运维:是给利用运维提供业务上的基础设施,比方:零碎、网络、监控、硬件等等

2、根底运维常见工作内容

服务监控技术:包含监控平台的研发、利用,服务监控准确性、实时性、全面性的保障

服务故障治理:包含服务的故障预案设计,预案的自动化执行,故障的总结并反馈到产品 / 零碎的设计层面进行优化以进步产品的稳定性

服务容量治理:测量服务的容量,布局服务的机房建设,扩容、迁徙等工作

服务性能优化:从各个方向,包含网络优化、操作系统优化、利用优化、客户端优化等,进步服务的性能和响应速度,改善用户体验

服务全局流量调度:接入服务的流量,依据容量和服务状态在各个机房间调配流量

服务平安保障:包含服务的拜访平安、防攻打、权限管制等

服务主动公布部署:部署平台 / 工具的研发,及平台 / 工具的应用,做到平安、高效的公布服务

服务集群治理:包含服务的服务器治理、大规模集群治理等

服务老本优化:尽可能升高服务运行应用的资源,升高服务运行老本

数据库治理(DBA):通过设计、开发和治理高性能数据库集群,使数据库服务更稳固、更高效、更易于治理。

平台化的开发:类 docker 等平台的开发治理,及服务接入技术

Linux 运维工作倒退过程

1、手工治理阶段

1)业务规模

业务流量不大,服务器数量绝对较少,零碎复杂度不高。

对于日常的业务管理操作,大家更多的是逐台登录服务器进行手工操作,属于各自为战。

每个人都有本人的操作形式,短少必要的操作规范、流程机制,比方业务目录环境都是各式各样的。

2)工作职责

晚期的运维团队在人员较少的状况下,次要是进行数据中心建设、根底网络建设、服务器洽购和服务器装置交付工作。

简直很少波及线上服务的变更、监控、治理等工作。

这个时候的运维团队更多的属于根底建设的角色,提供一个简略、可用的网络环境和零碎环境即可。

2、工具批量操作阶段

1)业务规模

随着服务器规模、零碎复杂度的减少,全人工的操作形式曾经不能满足业务的疾速倒退须要。

因而,运维人员逐步开始应用批量化的操作工具,针对不同操作类型呈现了不同的脚本程序。

此时,尽管效率晋升了一部分,但很快又遇到了瓶颈,操作的品质并没有太多的晋升。

咱们开始建设大量的流程标准,比方复查机制,先上线一台服务器察看 10 分钟后再持续前面的操作,一次降级实现后至多要察看 20 分钟等。

这些次要还是靠人来监督和执行,但在理论过程中执行往往不到位,反而升高了工作效率。

2)工作职责

这个时候的运维团队还会承当一些服务器监控的工作,同时会负责 LVS、Nginx 等与业务逻辑无关的 4 / 7 层运维工作。

这个时候服务变更更多的是逐台的手工操作,或者有一些简略批量脚本的呈现。

监控的焦点更多的在服务器状态和资源应用状况上,对服务利用状态的监控简直很少,监控更多的应用各种开源零碎如 Nagios、Cacti 等。

3、平台治理阶段

1)业务规模

在这个阶段,咱们决定开始建设运维平台,通过平台承载规范、流程,进而解放人力和提高质量。

这个时候对服务的变更动作进行了形象,造成了操作方法、服务目录环境、服务运行形式等对立的规范。

通过平台来束缚操作流程,如下面提到的上线一台服务器察看 10 分钟,程序的启停接口必须包含启动、进行、重载等。

在平台中强制设定暂停检查点,在第一台服务器操作实现后,须要运维人员填写相应的查看项,而后才能够继续执行后续的部署动作。

2)工作职责

因为业务规模和复杂度的继续减少,运维团队会逐步划分为利用运维和零碎运维两大块。

利用运维开始接手线上业务,逐渐发展服务监控梳理、数据备份以及服务变更的工作。

随着对服务的深刻,利用运维工程师有能力开始对服务进行一些简略的优化。

同时,为了应答每天大量的服务变更,咱们也开始编写各类运维工具,针对某些特定的服务可能很不便的批量变更。

随着业务规模的增大,基础设施因为容量布局有余或抵挡危险能力较弱导致的故障也越来越多,迫使运维人员开始将更多的精力投入到多数据中心容灾、预案治理的方向上。

4、零碎自调度阶段

1)工作环境

更大规模的服务数量、更简单的服务关联关系、各个运维平台的林立,原有的将批量操作转化成平台操作的形式曾经不再适宜。

须要对服务变更进行更高一层的形象,将每一台服务器形象成一个容器,由调度零碎依据资源应用状况,将服务调度、部署到适合的服务器上。

自动化实现与周边各个运维零碎的联动,比方监控零碎、日志零碎、备份零碎等。

通过自调度零碎,依据服务运行状况动静伸缩容量,可能自动化解决常见的服务故障。

运维人员的工作也会前置到产品设计阶段,帮助研发人员革新服务使其能够接入到自调度零碎中。

2)工作职责

业务规模达到肯定水平后,开源的监控零碎在性能和性能方面,曾经无奈满足业务需要;

大量的服务变更、简单的服务关系,以前靠人工记录、工具变更的形式不论在效率还是准确性方面也都无奈满足业务需要;

在平安方面也呈现了各种大大小小的事件,迫使咱们投入更多的精力在平安进攻上。

逐步的,运维团队造成之前提到的 5 个大的工作分类,每个分类都须要有专精的人才。

这个时候零碎运维更专一于基础设施的建设和运维,提供稳固、高效的网络环境,交付服务器等资源给利用运维工程师。

利用运维更专一于服务运行状态和效率,数据库运维属于利用运维工作的细化,更专一于数据库畛域的自动化、性能优化和平安进攻。

运维研发和运维平安提供各类平台、工具,进一步晋升运维工程师的工作效率,使业务服务运行得更加稳固、高效和平安。

Linux 运维工作分类

1、利用运维(SRE):

利用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急解决等工作

工作职责如下:设计评审、服务治理、资源管理、例行查看、预案治理、数据备份。

2、零碎运维 (SYS):

负责 IDC、网络、CDN 和根底服务的建设(LVS、NTP、DNS);

负责资产治理,服务器选型、交付和培修,网络建设、LVS 负载平衡和 SNAT 建设

3、运维开发

是给利用运维开发运维工具和运维平台的

次要蕴含的平台:工单零碎、CMDB、监控零碎、ELK 日志零碎、CI/CD、LDAP、FAQ、培训零碎、OpenStack 平台

4、数据库运维(DBA):

数据库运维负责数据存储方案设计、数据库表设计、索引设计和 SQL 优化,

对数据库进行变更、监控、备份、高可用设计等工作,具体的工作内容如下

设计评审、容量布局、数据备份与灾备、数据库监控、数据库安全、数据库高可用和性能优化

自动化零碎建设、运维研发、运维平台、监控零碎、自动化部署零碎

5、运维平安(SEC):

运维平安负责网络、零碎和业务等方面的平安加固工作

进行惯例的平安扫描、浸透测试,进行平安工具和零碎研发以及安全事件应急解决

工作内容如下:平安制度建设、平安培训、危险评估、平安建设、平安合规、应急响应。

Linux 运维日常应用软件和技能

1、运维工程师应用的运维平台和工具

Web 服务器:apache、tomcat、nginx

监控:prometheus、zabbix、openfalcon、nagios、cacti

主动部署:ansible、saltstack、puttet

负载平衡:keepalive、lvs、haproxy、nginx

备份工具:rsync、wget

问题追究:netstat、top、tcpdump、last

容器:docker、k8s、docker-compose、swarm

平安:kerberos、selinux、acl、iptables

虚拟化:openstack、xen、kvm

2、运维工程师要把握的技能

扎实的计算机基础知识,包含计算机系统架构,操作系统,网络技术等;

通用利用方面须要理解操作系统、网络、平安,存储,CDN,DB 等,晓得其相干原理;

编程能力,小到运维工具的开发大到大型运维零碎 / 平台的开发都须要有良好的编程能力;

数据分析能力:可能整顿、剖析零碎运行的各项数据,从中发现问题及找到解决方向;

丰盛的零碎常识,包含零碎工具、典型零碎架构、常见的平台选型等。

退出移动版