关于后端:014-Linux-线上高频使用以及面试高频问题如何查找大文件并安全的清除

0次阅读

共计 3644 个字符,预计需要花费 10 分钟才能阅读完成。

1 案例形容?

  1. 服务线上环境,会呈现一些磁盘使用率过高而告警的状况,可能是某个日志文件过大,没有及时清理回收,如何找到大目录和大文件?
  2. 如何平安的清理大文件?
  3. 如何使占用的磁盘空间疾速开释掉?

2 命令一(目录统计排序最佳命令)

(这里以当前目录 ./ 为例,统计 top5)
【du -k –max-depth=1 ./ |sort -nr|head -n5】

[root@test-001 /]# du -k --max-depth=1 ./ |sort -nr|head -n5
137450839518    ./
6785876    ./data
2182577    ./usr
1830341    ./home
446856    ./var

//du -k # 显示目录或文件大小时,以 kB 为单位;//du --max-depth=1 [目录] # 只显示指定目录下第一层目录(不含单个文件)的大小;//sort -nr # 以行为单位,依据数字大小从大到小排序;//head -n5 # 显示内容的结尾 5 行,这里显示就是 top5 内容;

3 命令二(最实用,目录和文件一起统计排序)

(这里以当前目录 ./ 为例,统计 top5)

(1)命令详情和阐明

【du -sk ./ | sort -nr | head -n5 | awk -F’\t’ ‘{if(1024 1024 1024 1024 > $1 && $1 >= 1024 1024 1024) {printf “%.2fT\t\t %s\n”, $1/(1024 * 1024 * 1024), $2} else if(1024 1024 1024 > $1 && $1 >= 1024 1024) {printf “%.2fG\t\t %s\n”, $1/(1024 * 1024), $2} else if (1024 1024 > $1 && $1 >= 1024) {printf “%.2fM\t\t %s\n”, $1/1024, $2} else {printf “%sk\t\t %s\n”, $1, $2}}’】

[root@test-001 /]# du -sk * ./ | sort -nr | head -n5 | awk -F'\t' '{if(1024 * 1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024 * 1024) {printf"%.2fT\t\t %s\n", $1/(1024 * 1024 * 1024), $2} else if(1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024) {printf"%.2fG\t\t %s\n", $1/(1024 * 1024), $2} else if (1024 * 1024 > $1 && $1 >= 1024) {printf"%.2fM\t\t %s\n", $1/1024, $2} else {printf"%sk\t\t %s\n", $1, $2}}'
7.13G         data
2.17G         usr
1.75G         home
447.04M         var
408.50M         run
//du -sk * # 显示当前目录下每个文件夹和文件的大小以 KB 为单位 (最罕用),s 示意汇总,k 是以 KB 为统计单位;//./ #当前目录下
//sort -nr # 以行为单位,依据数字大小从大到小排序;//awk -F'\t'# 以程度制表符进行宰割,前面的程序就是进行换算单位,格式化输入成易懂的模式;

(2)du、head、sort、awk 具体阐明参考已有文章

(3)Linux 中 printf 命令应用参考

// Linux 中 printf 命令应用参考
// https://www.linuxprobe.com/linux-printf-example.html

'{if(1024 * 1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024 * 1024) 
    {printf "%.2fT\t\t %s\n", $1/(1024 * 1024 * 1024), $2
    } 
    else if(1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024) 
    {printf "%.2fG\t\t %s\n", $1/(1024 * 1024), $2
    } 
    else if (1024 * 1024 > $1 && $1 >= 1024) 
    {printf "%.2fM\t\t %s\n", $1/1024, $2} 
    else 
    {printf "%sk\t\t %s\n", $1, $2}
}'

4 如何平安应用 rm 命令删除文件?

(1)rm 命令有哪些坑?

  • rm -rf / # 这个命令绝逼不能操作🙅,删除根目录下的文件,就是零碎中的所有文件都要被删除。如果是线上服务机器操作了,那就喜剧了!误操作了怎么办?赶快 ctrl+c、ctrl+z 能保住多少是多少吧。
  • rm -rf / home/apps/logs/ # 这也是个天坑命令!目标是删除日志文。后果书写时“多了一个空格”的 bug,看懂了么?这就变成了 [rm -rf /]!
  • 埋藏隐患的日志清理 shell 脚本!脚本要害内容如下。

    cd ${log_path}
    rm -rf *

    目标是:进入到日志目录,而后把日志都删除。隐患:当目录不存在时,喜剧就产生了!

(2)如何平安应用 rm 命令?

  • 在生产环境把 [rm -rf] 命令替换为 [mv],再写个脚本程序定期清理,模仿回收站的性能。
  • 把日志清理 shell 脚本,改用逻辑与 && 进行连贯。

    cd ${log_path}
    rm -rf *

    改用逻辑与 && 进行连贯,合并成一句,前半句逻辑失败,后半句命令不执行:
     `shell
    cd ${log_path} && rm -rf * 

     残缺的日志清理 shell 脚本如下:```shell
    #!/bin/bash
    base_home="/home/apps"
    log_path=${base_home}/logs
    cd ${log_path} && rm -rf *

5 磁盘使用率报警,却查不到具体的大文件?

(1)问题情景

  • 1 磁盘使用率监控报警,进入机器能够 (df -h) 命令看到磁盘使用率的确超过了报警阀值。
  • 2 应用命令查看大目录,并进入到目录下【du -sk ./ | sort -nr | head -n5 | awk -F’\t’ ‘{if(1024 1024 1024 1024 > $1 && $1 >= 1024 1024 1024) {printf “%.2fT\t\t %s\n”, $1/(1024 * 1024 * 1024), $2} else if(1024 1024 1024 > $1 && $1 >= 1024 1024) {printf “%.2fG\t\t %s\n”, $1/(1024 * 1024), $2} else if (1024 1024 > $1 && $1 >= 1024) {printf “%.2fM\t\t %s\n”, $1/1024, $2} else {printf “%sk\t\t %s\n”, $1, $2}}’】
  • 3 仍然没找到大文件,该怎么办呢?

(2)排查思路

  • 1 思考:是不是有文件曾经被删除了,但过程还在占用该文件,过程未完结,空间未开释?
  • 2 应用「lsof |grep -i deleted」命令查看,能查看到已删除,空间没有开释的文件,蕴含文件大小,过程和服务名等信息。

lsof(List Open Files)用于查看过程关上的文件,关上文件的过程,过程关上的端口 (TCP、UDP),找回 / 复原删除的文件。是非常不便的零碎监督工具,因为 lsof 命令须要拜访外围内存和各种文件,所以须要 root 用户权限执行。

(3)占用磁盘空间开释

重启下过程所指的服务,占用的磁盘空间即可开释掉。线上生产操作肯定要审慎,不要间接 kill 掉过程,评估看是否有过程服务本身的重启名命令,以及评估服务是否能够重启。

(4)备注附录

  • 1 当一个文件正在被一个过程应用时,用户删除此文件,文件只会从目录构造中删除,但并没有从磁盘删除。
  • 2 当应用这个文件的过程完结后,文件才会真正的从磁盘删除,开释占有的空间。Linux 关上一个文件的时候,内核会为每个过程在 /proc/『/proc/{nnnn}/fd/ 文件夹({nnnn} 为 pid)』建设一个以其 pid 为名的文件夹用来保留过程的相干信息,而其子文件夹 fd 保留的是该过程关上的全副文件的 fd(fd:file descriptor)。
  • 3 Ctrl + C 和 Ctrl + Z 都是中断命令。Ctrl + C 是强制中断程序的执行,过程曾经终止;Ctrl + Z 是将工作停止(暂停的意思),他依然在过程中他只是维持挂起的状态。

6 生产环境罕用的平安清理大文件命令

  1. 生产环境平安清理大文件的诉求是什么?既要不影响服务的失常运行,又要让磁盘占用的空间疾速开释掉(让文件消失掉不是咱们的目标,咱们的目标是疾速开释掉占用的磁盘空间)。
  2. 不要应用「rm -rf xxx.log」;罕用「echo “” > xxx.log」。
  3. 这里假如 xxx.log 为大文件,如这个 xxx.log 有几十个 GB,「echo “” > xxx.log」是用一个 “” 内容笼罩原文件内容,使磁盘空间失去霎时开释!

7 小结

  1. 总结了查找大目录以及大文件的罕用组合命令(波及到 du、head、sort、awk 等命令);
  2. 以及如何平安应用 rm 命令;
  3. 还有在磁盘使用率报警,却查不到具体的大文件的状况如何排查;
  4. 最初还提到了罕用的 echo 命令对原文件进行笼罩以达到使磁盘空间占用失去霎时开释。

「不甩锅的码农」原创,转载请注明起源,未经受权禁止商业用途!同名 GZH 请关注!

正文完
 0