关于shell:建议收藏超全的-Linux-Shell-文本处理工具集锦

本文将介绍Linux下应用Shell解决文本时最罕用的工具：find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；提供的例子和参数都是最罕用和最为实用的；对shell脚本应用的准则是命令单行书写，尽量不要超过2行；如果有更为简单的工作需要，还是思考python吧.

1、find 文件查找

查找txt和pdf文件

find . ( -name "*.txt" -o -name "*.pdf" ) -print

正则形式查找.txt和pdf

find . -regex  ".*(.txt|.pdf)$"
#-iregex：疏忽大小写的正则

否定参数:查找所有非txt文本

find . ! -name "*.txt" -print

指定搜寻深度:打印出当前目录的文件（深度为1）

find . -maxdepth 1 -type f

定制搜寻

#按类型搜寻：
find . -type d -print  //只列出所有目录
#按工夫搜寻：
-atime 拜访工夫 (单位是天，分钟单位则是-amin，以下相似）
-mtime 批改工夫 （内容被批改）
-ctime 变动工夫 （元数据或权限变动）
最近7天被拜访过的所有文件：
find . -atime 7 -type f -print
#按大小搜寻：
寻找大于2k的文件
find . -type f -size +2k
#按权限查找：
find . -type f -perm 644 -print //找具备可执行权限的所有文件
#按用户查找：
find . -type f -user weber -print// 找用户weber所领有的文件

找到后的后续动作删除：

#删除当前目录下所有的swp文件：
find . -type f -name "*.swp" -delete
#执行动作（弱小的exec）
find . -type f -user root -exec chown weber {} ; //将当前目录下的所有权变更为weber
注：{}是一个非凡的字符串，对于每一个匹配的文件，{}会被替换成相应的文件名；
eg：将找到的文件全都copy到另一个目录：
find . -type f -mtime +10 -name "*.txt" -exec cp {} OLD ;

联合多个命令tips: 如果须要后续执行多个命令，能够将多个命令写成一个脚本。而后 -exec 调用时执行脚本即可；

-exec ./commands.sh {} ;
#-print的定界符

默认应用’ ‘作为文件的定界符；
-print0 应用”作为文件的定界符，这样就能够搜寻蕴含空格的文件；

2、grep 文本搜寻

grep match_patten file // 默认拜访匹配行

罕用参数:

-o 只输入匹配的文本行 VS -v 只输入没有匹配的文本行
-c 统计文件中蕴含文本的次数

grep -c “text” filename

n 打印匹配的行号
i 搜寻时疏忽大小写
l 只打印文件名

在多级目录中对文本递归搜寻(程序员搜代码的最爱）：

grep "class" . -R -n

匹配多个模式

grep -e "class" -e "vitural" file

grep输入以作为结尾符的文件名：（-z）

grep "test" file* -lZ| xargs -0 rm

xargs 命令行参数转换

xargs 可能将输出数据转化为特定命令的命令行参数；这样，能够配合很多命令来组合应用。比方grep，比方find；

将多行输入转化为单行输入

cat file.txt| xargs

是多行文本间的定界符
将单行转化为多行输入

cat single.txt | xargs -n 3
#-n：指定每行显示的字段数

xargs参数阐明

-d 定义定界符（默认为空格多行的定界符为）
-n 指定输入为多行
-I {} 指定替换字符串，这个字符串在xargs扩大时会被替换掉,用于待执行的命令须要多个参数时

cat file.txt | xargs -I {} ./command.sh -p {} -1
#-0：指定为输出定界符
#统计程序行数
find source_dir/ -type f -name "*.cpp" -print0 |xargs -0 wc -l

3、sort 排序

字段阐明：

-n 按数字进行排序 VS -d 按字典序进行排序
-r 逆序排序
-k N 指定按第N列排序

sort -nrk 1 data.txt
sort -bd data // 疏忽像空格之类的前导空白字符

4、uniq 打消反复行

打消反复行

sort unsort.txt | uniq

统计各行在文件中呈现的次数

sort unsort.txt | uniq -c

找出反复行

sort unsort.txt | uniq -d

可指定每行中须要比拟的反复内容：-s 开始地位 -w 比拟字符数

5、用 tr 进行转换

通用用法

echo 12345| tr '0-9''9876543210' //加解密转换，替换对应字符
cat text| tr '    '' '  //制表符转空格

tr删除字符

cat file | tr -d '0-9'   // 删除所有数字

-c 求补集

cat file | tr -c  '0-9'   //获取文件中所有数字
cat file | tr -d -c '0-9'  //删除非数字数据

tr压缩字符

tr -s 压缩文本中呈现的反复字符；最罕用于压缩多余的空格
cat file | tr -s ' '

字符类：tr中可用各种字符类

alnum：字母和数字
alpha：字母
digit：数字
space：空白字符
lower：小写
upper：大写
cntrl：管制（非可打印）字符
print：可打印字符

应用办法：tr [:class:] [:class:]
eg: tr 
'[:lower:]''[:upper:]'

6、cut 按列切分文本

#截取文件的第2列和第4列：
cut -f2,4 filename
#去文件除第3列的所有列：
cut -f3 --complement filename
#-d 指定定界符：
cat -f2 -d ";" filename

cut 取的范畴

N- 第N个字段到结尾
-M 第1个字段为M
N-M N到M个字段cut 取的单位
-b 以字节为单位
-c 以字符为单位
-f 以字段为单位（应用定界符）

cut -c1-5 file //打印第一到5个字符
cut -c-2 file  //打印前2个字符

7、paste 按列拼接文本

将两个文本按列拼接到一起

cat file1
1
2
cat file2
colin
book
paste file1 file2
1colin
2 book

默认的定界符是制表符，能够用-d指明定界符

paste file1 file2 -d ","
1,colin
2,book

8、wc 统计行和字符的工具

wc -l file // 统计行数
wc -w file // 统计单词数
wc -c file // 统计字符数

9、sed 文本替换利器

首处替换

sed 's/text/replace_text/'file   //替换每一行的第一处匹配的text

全局替换

sed 's/text/replace_text/g' file

默认替换后，输入替换后的内容，如果须要间接替换原文件,应用-i：

sed -i 's/text/repalce_text/g' file

移除空白行：

sed '/^$/d' file

变量转换

已匹配的字符串通过标记&来援用.

echo this is en example | seg 's/w+/[&]/g'
$>[this]  [is] [en] [example]

子串匹配标记

第一个匹配的括号内容应用标记来援用

sed 's/hello([0-9])//'

双引号求值

sed通常用单引号来援用；也可应用双引号，应用双引号后，双引号会对表达式求值：
sed ‘s/$var/HLLOE/’当应用双引号时，咱们能够在sed款式和替换字符串中指定变量；

p=patten
r=replaced
echo "line con a patten"| sed "s/$p/$r/g"
$>line con a replaced

字符串插入字符：将文本中每行内容（PEKSHA）转换为 PEK/SHA

sed 's/^.{3}/&//g' file

10、awk 数据流解决工具

awk脚本构造

awk ' BEGIN{ statements } statements2 END{ statements } '

工作形式

1.执行begin中语句块；
2.从文件或stdin中读入一行，而后执行statements2，反复这个过程，直到文件全副被读取结束；
3.执行end语句块；

print 打印以后行,应用不带参数的print时，会打印以后行;

echo -e "line1 line2"| awk 'BEGIN{print "start"} {print } END{ print "End" }'
#print 以逗号宰割时，参数以空格定界;
echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3";
print var1, var2 , var3; }'
$>v1 V2 v3
#应用-拼接符的形式（""作为拼接符）;
echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3";
print var1"-"var2"-"var3; }'
$>v1-V2-v3

非凡变量：NR NF 1 $2

NR:示意记录数量，在执行过程中对该当前行号；
NF:示意字段数量，在执行过程总对该当前行的字段数；
$0:这个变量蕴含执行过程中以后行的文本内容；
$1:第一个字段的文本内容；
$2:第二个字段的文本内容；

echo -e "line1 f2 f3 line2 line 3"| awk '{print NR":"$0"-"$1"-"$2}' 
#打印每一行的第二和第三个字段
awk '{print $2, $3}' file 
#统计文件的行数：
awk ' END {print NR}' file 
#累加每一行的第一个字段：
echo -e "1 2 3 4 "| awk 'BEGIN{num = 0 ;print "begin";} {sum += $1;}END {print "=="; print sum }'   
#传递内部变量
var=1000
echo | awk '{print vara}' vara=$var #输出来自stdin
awk '{print vara}' vara=$var file # 输出来自文件

用款式对awk解决的行进行过滤

awk 'NR < 5' #行号小于5
awk 'NR==1,NR==4 {print}' file #行号等于1和4的打印进去
awk '/linux/'  #蕴含linux文本的行（能够用正则表达式来指定，超级弱小）
awk '!/linux/'  #不蕴含linux文本的行

设置定界符

应用-F来设置定界符（默认为空格）

awk -F: '{print $NF}'/etc/passwd

读取命令输入

应用getline，将内部shell命令的输入读入到变量cmdout中；

echo | awk '{"grep root /etc/passwd" | getline cmdout; print cmdout }'

在awk中应用循环

for (i=0;i<10;i++){print $i;}
for (i in array){print array[i];}

以逆序的模式打印行：(tac命令的实现）

seq 9|awk '{lifo[NR] = $0; lno=NR}END{ for(;lno>-1;lno--){print lifo[lno];}} '

awk实现head、tail命令

head:
 awk 'NR<=10{print}' filename
tail:
  awk '{buffer[NR%10] = $0;} END{for(i=0;i<11;i++){
  print buffer[i %10]} } ' filename

打印指定列

#awk形式实现：
ls -lrt | awk 
'{print $6}'
#cut形式实现
ls -lrt | cut -f6

打印指定文本区域

#确定行号
seq 100| awk 'NR==4,NR==6{print}'
#确定文本
打印处于startpattern 和endpattern之间的文本；
awk '/start_pattern/, /end_pattern/' filename
seq 100| awk '/13/,/15/'
cat /etc/passwd| awk '/mai.*mail/,/news.*news/'

awk罕用内建函数

index(string,search_string):返回search_string在string中呈现的地位 sub(regex,replacement_str,string):将正则匹配到的第一处内容替换为replacement_str;
match(regex,string):查看正则表达式是否可能匹配字符串；
length(string)：返回字符串长度

echo | awk '{"grep root /etc/passwd" | getline cmdout; print length(cmdout) }'
#printf 相似c语言中的printf，对输入进行格式化
seq 10| awk '{printf "->%4s ", $1}'  #迭代文件中的行、单词和字符

迭代文件中的每一行

while 循环法
while read line;
do
echo $line;
done < file.txt

改成子shell:

cat file.txt | (
while read line;
do
 echo $line;
done
)

awk法：

cat file.txt| awk '{print}'

2.迭代一行中的每一个单词

for word in $line;
do
echo $word;
done

迭代每一个字符{#word}:返回变量word的长度

for ((i=0;i<${#word};i++))
do
echo ${word:i:1);
done

作者 | 大CC
起源 | www.cnblogs.com/me15/p/3427319.html

关于shell:建议收藏超全的-Linux-Shell-文本处理工具集锦

1、find 文件查找

2、grep 文本搜寻

3、sort 排序

4、uniq 打消反复行

5、用 tr 进行转换

6、cut 按列切分文本

7、paste 按列拼接文本

8、wc 统计行和字符的工具

9、sed 文本替换利器

10、awk 数据流解决工具

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于shell:建议收藏超全的-Linux-Shell-文本处理工具集锦

1、find 文件查找

2、grep 文本搜寻

3、sort 排序

4、uniq 打消反复行

5、用 tr 进行转换

6、cut 按列切分文本

7、paste 按列拼接文本

8、wc 统计行和字符的工具

9、sed 文本替换利器

10、awk 数据流解决工具

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复