摘要:以后 DWS 反对 NBU 介质备份复原,本文介绍 DWS 对接 NBU 备份故障排除办法。
本文分享自华为云社区《DWS 对接 NBU 备份故障排除指南》,作者:唐伯虎点蚊香。
NetBackup 是 Veritas 公司软件产品,为各种平台提供残缺而灵便的数据保护解决方案。这些平台包含 Microsoft Windows、UNIX、Linux 等零碎。利用 NetBackup 能够备份、归档和还原计算机上的文件、文件夹或目录以及卷或分区。以后 DWS 反对 NBU 介质备份复原,本文介绍 DWS 对接 NBU 备份故障排除办法。
部署形式
如果已有 3 节点 DWS 集群,Roach(DWS 备份工具)将本节点的集群数据通过 TCP 发送到远端 NBU Media Server 机器。每台 NBU Media Server 下面同时装置 NBU Client,并部署 Roach client 组件,后者接管集群内 Roach 过程发来的备份数据,不落盘形式通过 XBSA 接口转发给本机的 NBU Client,实现 NBU 备份。复原流程也相似,只是数据流相同。
在 DWS 备份过程中,个别故障次要出自以下三处:
- Roach agent:即集群节点内,间接查看集群备份日志 ($GAUSSLOG/roach/) 即可
- Roach client: 此插件次要负责数据收发,日志门路启动时通过 - l 参数指定,进入该门路查问即可
- NBU 软件端:可通过下文定位形式排查故障
环境校验
当进行 NBU 非侵入式备份时,思考到集群备份过于分量,能够先通过指定小文件测试环境连通性,保障 NBU 配置
gs_roach uploadmeta --media-destination 'nbu_policy' --metadata-destination '/home/Ruby/meta' --media-type NBU --backup-key '20200903_164332' --nbu-on-remote --media-server 192.168.243.65 --client-port 9000
注:
–media-destination 为 NBU 策略名称
–backup-key 为任一指定工夫戳即可
–media-server 为任意一台部署了 roach client 插件的 ip 地址
–client-port 为 roach client 凋谢的端口
–metadata-destination 为上传指定文件门路,其中将测试上传文件重名名为 metadata.tar.gz,并搁置在 /home/Ruby 目录下,并非 /home/Ruby/meta 目录下
如果能备份胜利,则阐明所连贯的 media server 配置无问题,如果存在失败,则 NBU 端配置有问题,须要依照后续阐明寻求起因。
故障定义
故障排除的第一步是定义问题。在 NBU 零碎的装置、配置、运行过程中,呈现了与正确预期不同的后果,即可认为是呈现了故障;有时候,这要求咱们晓得正确的状况应该是什么样的。
在 NBU 的交付和应用中常见的故障次要分为种:
一是软件装置和配置阶段,比方软件装置不胜利、对接不胜利、某模块性能不可用等等,这一阶段的谬误个别没有具体的错误码,须要联合交付人员的教训和系统日志进行排错,这种故障属于一次性的故障,在排除之后再次出现的可能性很小;
二是在零碎部署实现后,数据备份业务上线、备份和复原工作执行时报错,比方接入 client 失败、存储单元写入数据失败、找不到 client 服务器等等;这种故障 console 会提供错误码(error code),保护人员能够依据谬误进行初步的定位,这种故障属于日常性的故障,和环境中多种因素无关,备份零碎本身之外的业务环境产生轻微的变动都有可能导致故障的呈现。
故障排除过程
要排除问题,必须晓得产生了什么谬误。
谬误音讯通常是指出哪里呈现故障的伎俩。所以,咱们要做的第一件事就是查找谬误音讯。如果在界面上没有看到谬误音讯,但仍狐疑有问题,请检查报告和日志。NetBackup 提供了宽泛的报告和日志记录工具,这些工具可提供谬误音讯,间接指出解决方案。日志还可显示什么运行良好以及当产生问题时 NetBackup 正在执行什么操作。
综上,NBU 备份与复原故障排除过程如下:
1、确认服务器和 client 运行的是受反对的操作系统或利用版本;具体信息参看 NBU 兼容性列表;
2、复现故障,获取故障信息;获取信息的渠道有错误码、Job Details、日志等;
3、依据获取的信息进行故障定位和排除;
故障排除办法
应用状态码
每一个备份和复原工作都是一个 activity,在 activity monitor 一栏中能够监控到它们。由工作监督看出该工作的 ID、执行何种操作、状态、返回值、Server 和 Client 是谁、通过哪一个 Policy 和 Schedule 去执行的。
具体可显示多长时间的工作,要看 NetBackup 全局属性中的设置。每个工作有以下几个状态:
- Queued 工作正在排队
- Active 工作正在执行
- Done 工作执行结束
在 activity 的执行过程中,每一个工作后果都对应着一个状态代码,0 代表胜利,非 0 代表故障。返回值是一个十分有用的参数,通过返回值,能够通过错误代码查找手册中倡议的相干调整倡议,这对于问题检查和性能调整是十分有用的。页面中获取地位如下:
以下链接提供了 NBU 备份工作 status code list:
https://www.veritas.com/conte…
依据获取到的 status code 能够初步定位谬误起因
应用 Job details
与状态码相似,Job details 与 activity 也是一对一;不同的是,Job details 比状态码提供的信息更多,对于常见的故障,应用 Job details 能够实现故障的起因定位和排除。
双击一个 activity,抉择 detailed status,在 status 一栏即可获取更多的细节信息。找到要害错误信息(通常是红色字体或红色字体的上下文),提炼出关键字,在 google 上搜寻,互联网上有大量的雷同谬误场景和解决办法。
应用日志
以上应用状态码和 Job details 进行故障排除的方法停留在初级阶段,通常只对简略故障无效;对于简单问题,如果解决不了则须要收集日志进行剖析。
在 NBU 零碎中,日志级别共分为 6 级,别离为 0 -5,以下为日志级别对应的要记录的信息:
0:十分重要的大量诊断音讯和调试音讯
1:该级别减少具体的诊断音讯和调试音讯
2:减少进度音讯
3:减少提示性转储音讯
4:减少性能进入和退出音讯
5:最具体的信息:记录所有信息
日志等级调整形式如下:
1、console 界面调整
2、vi /usr/openv/netbackup/bp.conf, 在开端调加如下配置
VERBOSE = 5
NBU 零碎针对每一个过程都有一个独立的目录来寄存,然而在默认状况下不创立,所有如果想要收集这些日志,工程师须要手动创立这些目录。目录格局为 /usr/openv/netbackup/logs/ 过程名;以 bpcd 程序为例,执行以下命令创立子目录:
mkdir /usr/openv/netbackup/logs/bpcd
或者应用 NBU 提供的批量创立脚本,一键创立所有日志目录,执行以下命令:
sh /usr/openv/netbackup/logs/mklogdir
在收集日志时,NBU 针对性地为每个过程创立一个日志子目录,来实现过程级别的日志剖析,那么咱们须要先晓得 NBU 罕用的过程有哪些:
admin:治理命令。
bpbrm:NetBackup 备份和还原管理器。
bpcd:NetBackup client 后盾驻留程序或管理器。
bpdm:NetBackup 磁盘管理器。
bpdbm:NetBackup 数据库管理器。此过程仅在主服务器上运行。
bprd:NetBackup 申请管理器,对客户机和备份、复原、归档等治理申请作出响应。
vnetd:Veritas 网络后盾驻留程序。
bpbackup:在 UNIX client 上,当用户启动备份时,此程序与主服务器上的 bprd 通信。
在获取了日志之后,在各个文件中搜寻 fail、error、can not、freeze 等关键字,进行故障起因定位
NBU 罕用保护命令
用命令行启动 netbackup 服务过程
/usr/openv/netbackup/bin/bp.start_all
用命令行进行 netbackup 服务过程
/usr/openv/netbackup/bin/bp.kill_all
用命令行革除 host 缓存
/usr/openv/netbackup/bin/bpclntcmd -clear_host_cache # 革除缓存
cd /usr/openv/var/host_cache/ # 革除临时文件
rm –rf tmp
mkdir tmp
mv * tmp
用命令行检测 master 和 client 连通性
/usr/openv/netbackup/bin/admincmd/bptestbpcd -client client_hostname
若能够连通,返回后果相似如下:
NBU master server 与 NBU client 通信问题
在 client 和 master server 上相互 telnet 对方的备份治理立体 IP 的 1556、1372、13782 三个端口,确认 client 服务器与 master server 通信失常
netstat –an | grep 1556
netstat –an | grep 1372
netstat –an | grep 13782
查看 NBU 服务及过程
/usr/openv/netbackup/bin/./bpps -x
Media server 不是认证的主机
此为 client 上对 media server 的信赖配置问题。在 console 上点击 host properties>client,找到故障客户端,双击 client,在弹出界面点击 servers 一栏,在 additional server 配置中增加 media server 的主机名
存储单元不可用
呈现“存储单元不可用”故障信息可能有以下几种状况:
1、存储单元已满
2、此存储单元上处于排队状态的备份工作过多
3、client 与存储单元归属的 media server 无奈通信
想理解 GuassDB(DWS)更多信息,欢送微信搜寻“GaussDB DWS”关注微信公众号,和您分享最新最全的 PB 级数仓黑科技,后盾还可获取泛滥学习材料哦~
点击关注,第一工夫理解华为云陈腐技术~