关于后端:007-Linux-命令三剑客之awk

jiezi

3 年前

Linux 命令三剑客，sed、grep、awk。

sed：善于数据批改。
grep：善于数据查找定位。
awk：善于数据切片，数据格式化，性能最简单。

awk 更适宜格式化文本，对文本进行较简单格局解决，awk 程序对输出文件的每一行进行操作。awk 是一门解释型的编程语言。文本处理、输入格式化的文本报表、执行算数运算、执行字符串操作等等。

BEGIN {…. initialization awk commands …}{…. awk commands for each line of the file…}END {…. finalization awk commands …}

BEGIN{} 语句块在程序的结尾执行，它只执行一次，在这里能够初始化变量。BEGIN 是 awk 的关键字，因而它必须为大写，留神，这个语句块是可选的；
主 {} 局部，没有关键字，运行解决文件的每一行执行的命令；
END 语句块在程序的最初执行，END 是 awk 的关键字，因而必须为大写，它也是可选的。

awk 将每一行视为由多个字段组成，每个字段由 ” 距离符 ” 分隔。默认状况下 ” 距离符 ” 是一个或多个空格字符，因而行：this is a line of text 蕴含 6 个字段。在 awk 中，第一个字段称为 $1，第二个字段称为 $2，以此类推，整行称为 $0。
awk 内置变量 FS 能够设置距离符，如设置 FS=”:”，则它将依据 ’:’ 作为距离符。

【内置变量】

FS # 输出字段的分隔符
NR # 以后行号，已读的记录数
NF # 以后行中的字段数量
$NF # NF 以后行中的字段数量（行参数数量），如果行参数有六个，那么 NF=6，重点来了，如果我要取以后行的最初一个参数，应用 “$6” 和 “$NF” 都能取到最初一个参数，也就是说 $6=$NF= 第 6 个参数值。

【罕用可选参数】

-v # 赋值一个用户定义变量
-f # 从脚本文件中读取 awk 命令
-F # 相当于内置变量 FS

awk 能够对任何文件进行操作，包含 std-in，在这种状况下，它通常与 ‘|’ 命令一起应用，例如，联合 grep，cat 或其余命令。
awk 是一种面向行的语言。首先是模式，而后是动作。操作语句用 ” {} “ 括起来。
awk 模式包含正则表达式 (应用与“grep -E”雷同的语法) 和应用的组合特殊符号“&&”示意“逻辑 AND”，“||”示意“逻辑或”，“!”的意思是“逻辑不”。

awk 'BEGIN{commands} pattern{commands} END{commands}'

eg：统计指定 ip 和端口号，各种 tcp 连贯状态的数量

netstat -n | grep 1.2.3.4:22 | awk '/^tcp/ {++State[$NF]} END {for (i in State) print i, State[i]}'

命令中，^tcp 用于匹配结尾蕴含 tcp 字符的文本行；
$NF 指的是每行最初一个字段，数组 State[$NF]就是以最初一个字段为下标指向一个存储单元或者说变量，此处代表该字段的统计后果, 也就是 ++ 的意义所在，统计值自增一。
END 不能短少示意 END 符号之后的指令于解决所有行完结时执行。
i 是字段，State[i]即为统计后果，每行解决实现则 State[$NF] 加 1。

统计文本行数

awk 'END  {print NR}' warn.log #统计 warn.log 文件行数。

指定以 , 为分隔符；输入为 hello world。
文本内容如下：
hello,world,awk,!
```
awk -F, '{print $1,$2}' info.log # -F, 指定以逗号分隔。
```
实现计算表达式
```
awk 'BEGIN{print  115+100}'
```

awk 命令，善于文本格式化解决，这里只是起到一个抛砖引玉的作用，awk 语法较为简单，感兴趣的能够深刻学习，当然你也能够用 python 等语言来做一些脚本工作的解决。

「不甩锅的码农」原创，转载请注明起源，未经受权禁止商业用途！同名 GZH 请关注！

退出移动版