Linux文本处理

grep命令

grep可以进行文本检索过滤，常用选项如下：

选项	描述
-o	只输出匹配的文本行
-v	只输出没有匹配的文本行
-c	统计文件包含文本的次数
-n	打印匹配的行号
-i	忽略大小写
-l	只打印文件名

遍历层级目录

[root@t-luhx01-v-szzb ~]# grep "data" . -R -n

匹配多个patten时可以采用-e选项

[root@t-luhx01-v-szzb ~]# grep -e "data" -e "log" test.txt

xargs命令

xargs能够将输入数据转化为特定命令的参数，配合其它命令进行操作。常用选项如下：

选项	描述
-n	将单行转化输出多行，-n为每行的字段数
-d	定义分割符，默认为空格，多行的定义为n
-l {}	指定替换字符串
-0	指定0为输入分割符

单行转为多行

[root@t-luhx01-v-szzb ~]# cat test.txt 
11d ds d 1
[root@t-luhx01-v-szzb ~]# cat test.txt | xargs -n 3
11d ds d
1

批量删除文件

[root@t-luhx01-v-szzb ~]# find ./ -name *.bak | xargs rm -rf

sort命令

sort命令可以用于文本排序，常用选项如下：

选项	描述
-n	按数字进行排序
-d	按字典进行排序
-r	逆序
-k N	指定第N列排序

[root@t-luhx01-v-szzb ~]# cat test.txt 
1 lu
2 heng
3 xing
[root@t-luhx01-v-szzb ~]# sort -nrk 1 test.txt 
3 xing
2 heng
1 lu
[root@t-luhx01-v-szzb ~]# sort -drk 2 test.txt 
3 xing
1 lu
2 heng

此外，sort排序后可以通过uniq命令消除重复行

[root@t-luhx01-v-szzb ~]# cat test.txt 
1 lu
2 heng
3 xing
3 xing
[root@t-luhx01-v-szzb ~]# sort test.txt | uniq -d
3 xing
[root@t-luhx01-v-szzb ~]# sort test.txt | uniq -c
      1 1 lu
      1 2 heng
      2 3 xing   /*出现了2次*/
[root@t-luhx01-v-szzb ~]# sort test.txt | uniq
1 lu
2 heng
3 xing

tr命令

tr命令用于转换或删除文件中的字符，常用参数如下：

选项	描述
-c	条件取反
-d	删除指定字符
-s	将连续重复的字符转化为单个字符
-t	缩减SET的长度与SET2相等

tr支持的字符类包含以下内容：

[:alnum:]：字母和数字
[:alpha:]：字母
[:blank:]：水平空格
[:cntrl:]：控制字符
[:digit:]：数字
[:graph:]：可打印字符(不含空格)
[:lower:]：小写字母
[:print:]：可打印字符(含空格)
[:punct:]：标点符号
[:space:]：水平空格符和垂直空格符
[:upper:]：大写字母
[:xdigit:]：16进制的数字
[=CHAR=]：指定的字符

示例

将文件的中的小写全部转换为大写输出

[root@t-luhx01-v-szzb ~]# cat test.txt | tr a-z A-Z
1 LU
2 HENG
3 XING
3 XING

也可以通过[:lower:] [:upper:]的方式实现

[root@t-luhx01-v-szzb ~]# cat test.txt | tr [:lower:] [:upper:]
1 LU
2 HENG
3 XING
3 XING

删除数字

[root@t-luhx01-v-szzb ~]# cat test.txt | tr -d [:digit:]
 lu
 heng
 xing
 xing

cut命令

cut可以用于切割文本，常用选项如下：d

选项	描述
-b	以字节为单位进行分割
-c	以字符为单位进行分割
-d	自定义分割符，默认为制表符
-f	指定显示区域
-n	取消分割多字节字符，仅与-b选项配合使用

cut取值范围：

N-：第N个字段到结尾
-M：第一个字段到M
N-M：N到M字段

示例

查看第二列数据

[root@t-luhx01-v-szzb ~]# cut -f2 -d" " test.txt 
lu
heng
xing
xing

查看第一个到第三个字符

[root@t-luhx01-v-szzb ~]# cut -c1-3 test.txt 
1 l
2 h
3 x
3 x

paste命令

paste可以用于将两个文件的内容合并到一起

paste file1 file2

输出结果默认的分割符为制表符，可以用-d指定

sed命令

sed可以高效处理指定文本操作

[root@t-luhx01-v-szzb ~]# sed 's/xing/luhengxing/g' test.txt 
1 lu
2 heng
3 luhengxing
3 luhengxing

默认只是替换输出结果，如果需要替换原文件，可以使用-i选项

[root@t-luhx01-v-szzb ~]# sed -i 's/xing/luhengxing/' test.txt 
[root@t-luhx01-v-szzb ~]# cat test.txt 
1 lu
2 heng
3 luhengxing
3 luhengxing

移除空白行

[root@t-luhx01-v-szzb ~]# sed '/^$/d' test.txt

已匹配的字符串可以通过&来引用

[root@t-luhx01-v-szzb ~]# echo 'this is example' | sed 's/\w\+/[&]/g'
[this] [is] [example]

sed支持正则表达式，上面的\w\+就表示每个匹配到的字符串

sed除了替换的操作，还包含其它动作：

a：新增，可以用于追加数据(下一行)
c：取代
d：删除
i：插入(上一行)
p：打印
s：替换

awk

awk是一个更为强大的文本处理工具，常用的选项如下：

选项	描述
-F	指定文件分割符，可以是字符串或正则表达式
-v	定义一个用户变量
-f	从脚本中执行

awk的脚本结构

awk 'BEGIN{ text1 } text2 END{ text3 }'

执行过程如下：

执行BEGIN中的语句块
从文件或stdin中读入一行，执行text2，重复该过程直到最后一行
执行END语句块

内部变量

变量	描述
$n	当前行的第n个字段，字段由FS分割
$0	完整的输入记录
ARGC	命令行参数数量
ARGIND	命令行的所出的位置
ARGV	包含命令行参数的数组
CONVFMT	数字转换格式
ERRNO	最后的系统错误描述
FIELDWIDTHS	字符宽度列表
FILENAME	文件名
FNR	文件计数的行号
FS	字段分割符，默认为空格
IGNORECASE	为true时忽略大小写
NF	行记录的字段数目
NR	利用行号获取已读的记录数
OFMT	数字的输出格式，默认为%.6g
OFS	输出字段的分割符
ORS	输出记录分割符，默认为换行符
RLENGTH	由match函数匹配的字符串长度
RS	记录分割符，默认为换行符
RSTART	由match函数匹配的字符串第一个位置
SUBSEP	数组下标分割符，默认为/034

内部函数

函数	描述
index(string,search_string)	返回search_string在string中出现的位置
sub(regex,replacement_str,string)	将正则表达式匹配到的第一处内容替换为replacement_str
match(regex,string)	检查正则表达式是否能够匹配字符串
length(string)	返回字符串长度

示例

查看文件第二列数据

[root@t-luhx01-v-szzb ~]# awk '{print $2}' test.txt 
lu
heng
luhengxing
luhengxing

统计文件的行数

[root@t-luhx01-v-szzb ~]# awk ' END {print NR}' test.txt 
4

累加第一个字段的数字

[root@t-luhx01-v-szzb ~]# cat  test.txt | awk 'BEGIN{sum=0;}{sum+=$1;}END{print sum}'
9

指定输出分割符

[root@t-luhx01-v-szzb ~]# awk '{print $1,$2 }' OFS="|" test.txt 
1|lu
2|heng
3|luhengxing
3|luhengxing

通过正则匹配字符串的行

[root@t-luhx01-v-szzb ~]# awk '/lu/' test.txt 
1 lu
3 luhengxing
3 luhengxing

打印9*9乘法表

[root@t-luhx01-v-szzb ~]# seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'
1x1=1
1x2=2   2x2=4
1x3=3   2x3=6   3x3=9
1x4=4   2x4=8   3x4=12  4x4=16
1x5=5   2x5=10  3x5=15  4x5=20  5x5=25
1x6=6   2x6=12  3x6=18  4x6=24  5x6=30  6x6=36
1x7=7   2x7=14  3x7=21  4x7=28  5x7=35  6x7=42  7x7=49
1x8=8   2x8=16  3x8=24  4x8=32  5x8=40  6x8=48  7x8=56  8x8=64
1x9=9   2x9=18  3x9=27  4x9=36  5x9=45  6x9=54  7x9=63  8x9=72  9x9=81

使用getline将命令结果读入变量中

[root@t-luhx01-v-szzb ~]# echo | awk '{"grep root /etc/passwd" | getline cmdout; print cmdout }'
root:x:0:0:root:/root:/bin/bash

循环处理

迭代文件每一行数据

[root@t-luhx01-v-szzb ~]# while read line;
> do
> echo $line;
> done < test.txt 
1 lu
2 heng
3 luhengxing
3 luhengxing

迭代每一个字段

[root@t-luhx01-v-szzb ~]# export line='Abcd 123#'
[root@t-luhx01-v-szzb ~]# for word in $line; do echo $word; done
Abcd
123#

迭代每一个字符

[root@t-luhx01-v-szzb ~]# export word='abc'
[root@t-luhx01-v-szzb ~]# for((i=0;i<${#word};i++)); 
> do
> echo ${word:i:1};
> done
a
b
c

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,470评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,393评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,577评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,176评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,189评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,155评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,041评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,903评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,319评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,539评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,703评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,417评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,013评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,664评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,818评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,711评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,601评论 2赞 353