摘要:以后DWS反对NBU介质备份复原,本文介绍DWS对接NBU备份故障排除办法。
本文分享自华为云社区《DWS对接NBU备份故障排除指南》,作者: 唐伯虎点蚊香。
NetBackup是Veritas公司软件产品,为各种平台提供残缺而灵便的数据保护解决方案。这些平台包含Microsoft Windows、UNIX、Linux 等零碎。利用NetBackup能够备份、归档和还原计算机上的文件、文件夹或目录以及卷或分区。以后DWS反对NBU介质备份复原,本文介绍DWS对接NBU备份故障排除办法。
部署形式
如果已有3节点DWS集群,Roach(DWS备份工具)将本节点的集群数据通过TCP发送到远端NBU Media Server机器。每台NBU Media Server下面同时装置NBU Client,并部署Roach client组件,后者接管集群内Roach过程发来的备份数据,不落盘形式通过XBSA接口转发给本机的NBU Client,实现NBU备份。复原流程也相似,只是数据流相同。
在DWS备份过程中,个别故障次要出自以下三处:
- Roach agent: 即集群节点内,间接查看集群备份日志($GAUSSLOG/roach/)即可
- Roach client: 此插件次要负责数据收发,日志门路启动时通过-l参数指定,进入该门路查问即可
- NBU软件端: 可通过下文定位形式排查故障
环境校验
当进行NBU非侵入式备份时,思考到集群备份过于分量,能够先通过指定小文件测试环境连通性,保障NBU配置
gs_roach uploadmeta --media-destination 'nbu_policy' --metadata-destination '/home/Ruby/meta' --media-type NBU --backup-key '20200903_164332' --nbu-on-remote --media-server 192.168.243.65 --client-port 9000
注:
--media-destination为NBU策略名称
--backup-key为任一指定工夫戳即可
--media-server为任意一台部署了roach client插件的ip地址
--client-port为roach client凋谢的端口
--metadata-destination为上传指定文件门路,其中将测试上传文件重名名为metadata.tar.gz,并搁置在/home/Ruby目录下,并非/home/Ruby/meta目录下
如果能备份胜利,则阐明所连贯的media server配置无问题,如果存在失败,则NBU端配置有问题,须要依照后续阐明寻求起因。
故障定义
故障排除的第一步是定义问题。在NBU零碎的装置、配置、运行过程中,呈现了与正确预期不同的后果,即可认为是呈现了故障;有时候,这要求咱们晓得正确的状况应该是什么样的。
在NBU的交付和应用中常见的故障次要分为种:
一是软件装置和配置阶段,比方软件装置不胜利、对接不胜利、某模块性能不可用等等,这一阶段的谬误个别没有具体的错误码,须要联合交付人员的教训和系统日志进行排错,这种故障属于一次性的故障,在排除之后再次出现的可能性很小;
二是在零碎部署实现后,数据备份业务上线、备份和复原工作执行时报错,比方接入client失败、存储单元写入数据失败、找不到client服务器等等;这种故障console会提供错误码(error code),保护人员能够依据谬误进行初步的定位,这种故障属于日常性的故障,和环境中多种因素无关,备份零碎本身之外的业务环境产生轻微的变动都有可能导致故障的呈现。
故障排除过程
要排除问题,必须晓得产生了什么谬误。
谬误音讯通常是指出哪里呈现故障的伎俩。所以,咱们要做的第一件事就是查找谬误音讯。如果在界面上没有看到谬误音讯,但仍狐疑有问题,请检查报告和日志。NetBackup 提供了宽泛的报告和日志记录工具,这些工具可提供谬误音讯,间接指出解决方案。日志还可显示什么运行良好以及当产生问题时 NetBackup 正在执行什么操作。
综上,NBU备份与复原故障排除过程如下:
1、确认服务器和client运行的是受反对的操作系统或利用版本;具体信息参看NBU兼容性列表;
2、复现故障,获取故障信息;获取信息的渠道有错误码、Job Details、日志等;
3、依据获取的信息进行故障定位和排除;
故障排除办法
应用状态码
每一个备份和复原工作都是一个activity,在activity monitor一栏中能够监控到它们。由工作监督看出该工作的ID、执行何种操作、状态、返回值、Server和Client是谁、通过哪一个Policy和Schedule去执行的。
具体可显示多长时间的工作,要看NetBackup全局属性中的设置。每个工作有以下几个状态:
- Queued 工作正在排队
- Active 工作正在执行
- Done 工作执行结束
在activity的执行过程中,每一个工作后果都对应着一个状态代码,0代表胜利,非0代表故障。返回值是一个十分有用的参数,通过返回值,能够通过错误代码查找手册中倡议的相干调整倡议,这对于问题检查和性能调整是十分有用的。页面中获取地位如下:
以下链接提供了NBU备份工作status code list:
https://www.veritas.com/conte...
依据获取到的status code能够初步定位谬误起因
应用Job details
与状态码相似,Job details与activity也是一对一;不同的是,Job details比状态码提供的信息更多,对于常见的故障,应用Job details能够实现故障的起因定位和排除。
双击一个activity,抉择detailed status,在status一栏即可获取更多的细节信息。找到要害错误信息(通常是红色字体或红色字体的上下文),提炼出关键字,在google上搜寻,互联网上有大量的雷同谬误场景和解决办法。
应用日志
以上应用状态码和Job details进行故障排除的方法停留在初级阶段,通常只对简略故障无效;对于简单问题,如果解决不了则须要收集日志进行剖析。
在NBU零碎中,日志级别共分为6级,别离为0-5,以下为日志级别对应的要记录的信息:
0:十分重要的大量诊断音讯和调试音讯
1:该级别减少具体的诊断音讯和调试音讯
2:减少进度音讯
3:减少提示性转储音讯
4:减少性能进入和退出音讯
5:最具体的信息:记录所有信息
日志等级调整形式如下:
1、console界面调整
2、vi /usr/openv/netbackup/bp.conf, 在开端调加如下配置
VERBOSE = 5
NBU零碎针对每一个过程都有一个独立的目录来寄存,然而在默认状况下不创立,所有如果想要收集这些日志,工程师须要手动创立这些目录。目录格局为/usr/openv/netbackup/logs/过程名;以bpcd程序为例,执行以下命令创立子目录:
mkdir /usr/openv/netbackup/logs/bpcd
或者应用NBU提供的批量创立脚本,一键创立所有日志目录,执行以下命令:
sh /usr/openv/netbackup/logs/mklogdir
在收集日志时,NBU针对性地为每个过程创立一个日志子目录,来实现过程级别的日志剖析,那么咱们须要先晓得NBU罕用的过程有哪些:
admin:治理命令。
bpbrm:NetBackup 备份和还原管理器。
bpcd:NetBackup client后盾驻留程序或管理器。
bpdm:NetBackup 磁盘管理器。
bpdbm:NetBackup 数据库管理器。此过程仅在主服务器上运行。
bprd:NetBackup 申请管理器,对客户机和备份、复原、归档等治理申请作出响应。
vnetd:Veritas 网络后盾驻留程序。
bpbackup:在UNIX client上,当用户启动备份时,此程序与主服务器上的bprd通信。
在获取了日志之后,在各个文件中搜寻fail、error、can not、freeze等关键字,进行故障起因定位
NBU罕用保护命令
用命令行启动netbackup服务过程
/usr/openv/netbackup/bin/bp.start_all
用命令行进行netbackup服务过程
/usr/openv/netbackup/bin/bp.kill_all
用命令行革除host缓存
/usr/openv/netbackup/bin/bpclntcmd -clear_host_cache # 革除缓存cd /usr/openv/var/host_cache/ # 革除临时文件rm –rf tmpmkdir tmpmv * tmp
用命令行检测master和client连通性
/usr/openv/netbackup/bin/admincmd/bptestbpcd -client client_hostname
若能够连通,返回后果相似如下:
NBU master server与NBU client 通信问题
在client和master server上相互telnet对方的备份治理立体IP的1556、1372、13782三个端口,确认client服务器与master server通信失常
netstat –an | grep 1556netstat –an | grep 1372netstat –an | grep 13782
查看NBU服务及过程
/usr/openv/netbackup/bin/./bpps -x
Media server不是认证的主机
此为client上对media server的信赖配置问题。在console上点击host properties>client,找到故障客户端,双击client,在弹出界面点击servers一栏,在additional server配置中增加media server的主机名
存储单元不可用
呈现“存储单元不可用”故障信息可能有以下几种状况:
1、存储单元已满
2、此存储单元上处于排队状态的备份工作过多
3、client与存储单元归属的media server无奈通信
想理解GuassDB(DWS)更多信息,欢送微信搜寻“GaussDB DWS”关注微信公众号,和您分享最新最全的PB级数仓黑科技,后盾还可获取泛滥学习材料哦~
点击关注,第一工夫理解华为云陈腐技术~