grep、cut、awk、sed文本处理

《LinuxShell脚本攻略》笔记,Chap-4:让文本飞



简介

shell脚本可以将sed, awk, grep, cut等这类优美的工具组合在一起,用于解决文本处理相关问题。


正则表达式

正则表达式是一种用于文本匹配的形式小巧、具有高度针对性的编程语言。只依靠通配符技术,能够匹配的文本范围相当有限。

正则表达式基本组成:

正则表达式 描述
^ 行起始标记
$ 行尾标记
. 匹配任意一个字符
[] 匹配包含在[]中的任意一个字符
[^] 匹配出[^]之外任意一个字符
[-] 匹配[]中范围内的任意一个字符
重复0或1次
+ 重复>=1次
* 重复>=0次
() 创建一个用于匹配的子串
{n} 重复n次
{n, } 重复>=n次
{n,m} 重复n到m次
\ 转义字符
竖线l 匹配竖线l两边任意一项



POSIX字符类

POSIX字符类(POSIX character class),是一个形如[:...:]的特殊元序列,它用于匹配特定的字符范围。

正则表达式 描述 栗子
[:alnum:] 字母与数字字符 [[:alnum:]]+
[:alpha:] 字母字符 [[:alpha:]]{4}
[:blank:] 空格与制表符 [[:blank:]]*
[:digit:] 数字字符 [[:digit:]]?
[:lower:] 小写字母 [[:lower:]]{5,}
[:upper:] 大写字母 ([[:upper:]]+)?
[:punct:] 标点符号 [[:punct:]]
[:space:] 所有空白字符 [[space:]]+



元字符

元字符(meta character),是一种Perl风格的正则表达式,只有一部分文本处理工具支持它。

正则表达式 描述 栗子
\b 单词边界 \bcool\b匹配cool,不匹配cooling
\B 非单词边界 cool\B匹配cooling,不匹配cool
\d 单个数字字符 b\dd匹配b2b,不匹配bcd
\D 单个非数字字符 b\Db匹配bcb,不匹配b2b
\w 单个单词字符(数字,字母和_) \w匹配1或a,不匹配@
\W 单个非单词字符 \W匹配@,不匹配1或a
\s 单个空白字符 x\sx匹配x x,不匹配xx
\S 单个非空白字符 x\Sx匹配xKx,不匹配xx
\n 换行符 \n匹配一个新行
\r 回车 \r匹配回车


#匹配一个ipv4地址
[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}

#匹配一个邮箱地址
[\w]+@[\w]\.com


用grep在文件中搜索文本

grep命令是Unix中用于文本搜索的工具,它能够接受正则表达式和通配符。

grep "匹配文本/通配符" file1 file2... --color=auto #重点标记匹配
grep -E "正则表达式" file
egrep "正则" file

grep -v #反向匹配
grep -c #统计匹配行数
grep -n #打印出匹配的行号
grep -o #唯一匹配
grep -l "匹配" file1 file2    #返回匹配的文件名
grep -R #递归匹配
grep -i #忽略大小写
grep -e "匹配1" -e "匹配2"  #匹配多个样式
grep -f match.txt file1 #从match.txt文件读取匹配
grep "匹配" --include=*.{sh,txt} --exclude=*.log --exclude-dir=/home/user -r /home    #包括或排除文件
-A/-B n #输出匹配 之后/之前 n行
-C n    #输出匹配 前后 n行


用cut按列切分文件

cut是一个将文本按列进行切分的小工具,它也可以指定每列定界符。在cut的术语中,每列都是一个字段。

#制表符'\t' 是cut默认的定界符
cut -d' ' -f1 1.txt #-d指定分隔符,-f打印第几个字段
cut -f1,2,3 #打印1,2,3列
-c字符;   -b字节;
cut -c 1-5 1.txt    #打印1-5字符
cut -c -2 1.txt #打印前2个字符
cut -c 3-   #打印第3个字符到行尾


统计特定文件词频

#单词解析可以用 关联数组,正则表达式配合sed,awk,grep等工具来完成
#关联数组中,将单词作为数组索引,单词次数作为数组值
egrep -o "\b[:alpha:]+\b"   #匹配单词


sed入门

sed是stream editor(流编辑器)的缩写,它是文本处理中非常重要的工具。能够完美地配合正则表达式使用。

#sed - stream editor for filtering and transforming text
#字符/在sed中最为定界符使用

#替换
#sed 's/匹配样式/替代字符串/'
sed 's/pattern/repalce/' file   #替换
sed -i 's/pattern/repalce/' file    #将替换应用于file

echo "1.txt" > 1.txt && sed 's/txt/haha' 1.txt  #在输出中用haha替换txt
sed -i 's/txt/haha/' 1.txt  #将1.txt文件中的txt用haha替换掉
#-i选项替换原文件

echo "hahaha" | sed 's/ha/HA/g' #全部替换
echo "hahaha"   | sed 's/ha/HA/2g'  #指定位置替换,从第2处开替换全局

#移除匹配样式的行
sed '/pattern/d
sed '/^$/d' ##移除空白行

#在sed中用&标记已匹配字符串
echo "A wonderful goal" | sed 's/\w\+/[&]/g'    #\w\+匹配每一个单词

#子串匹配标记\1,\2...
echo "1st 2nd 3rd" | sed 's/\(\w\+\) \(\w\+\) \(\w\+\)/\2 \1 \3/'
2nd 1st 3rd
#将\2和\1交换次序,(),+等在sed中要转义,否则要报错

#组合多个表达式
sed 'expression1; expression2; ...
echo "aabbcc" | sed 's/a/A/; s/b/B/; s/c/C/g'
AaBbCC

#双引号 " " 内的特殊符号(如$等),可以保有原本的特性
#单引号 ' ' 内的特殊字符则仅为一般字符(纯文本)
#引用
text=hello
echo 'hello world' | sed "s/$text/HELLO/"
HELLO world


awk入门

awk被设计用于数据流,它可以对列和行进行操作。

#awk ‘begin{print "start"} pattern {command} end{print "end"}’ file
awk '{sum += $1}; {print sum}'
#awk脚本由:begin块、end块和能使用模式(pattern)匹配的通用语句块 组成
#3个部分都是可选的
#awk也可以从stdin中读取内容
cat /etc/passwd | awk -F: '{print $1}'  #-F指定界定符

#awk中的特殊变量
#NR:记录数量(number of records),对应于当前行号
#NF:字段数量(number of fields),对应于当前行的字段数
#$0:执行过程中当前行的文本内容
#$1,$2...$NF:第1个/2个.../最后一个 字段的内容
echo -e "L1 1\nL2 22\nL3 333" | awk '{print NR NF $0 $1 $2}'
# NR NF $0      $1  $2 $NF=最后一个=$2
  1  2  L1 1    L1  1  1
  2  2  L2 22   L2  2  2
  3  2  L3 333  L3  3  3

#将外部变量传递给awk
#-v选项可将外部值传递给awk
#  -v var=val  --assign=var=val
var='12345'
echo | awk -v v1=$var '{print v1}'
#多个变量
var1=111; var2=222
echo | awk '{print v1,v2}' v1=$var1 v2=$var2
#变量来自文件而非标准输入
awk '{print v1,v2}' v1=$var1 v2=$var2 file

#用样式对awk进行过滤处理
awk 'NR < 3,NR==4' 1.txt    #行号<5的行
awk '/linux/' 1.txt #匹配带有linux的行(可用re)
awk '!/linux/' 1.txt #!匹配不带linux的行

#设置定界符
awk -F: '{print $1}' /etc/passwd
awk '{FS=":"} {print $1}' /etc/passwd
awk '{FS=":"; print $1}' /etc/passwd

#从awk中读取命令输出,用getline读取行
echo | awk '{"grep root /etc/passwd" | getlin out; print out}'
root:x:0:0:root:/root:/bin/bash

#在awk中使用循环
awk '{for(i=1;i<4;i++) {print $i}}' 2.txt   #输出第1,2,3列


对文件中的行、单词、字符进行迭代

#迭代文件中的每一行
echo -e "1\n22\n333" | while read line;do echo $line;done
grep "bash" /etc/passwd | while read line;do echo $line;done
#1
#22
#333

#迭代一行中的每一个单词
echo "1 22 333" | while read line;do for word in $line;do echo $word;done;done
#1
#22
#333

#迭代一个单词中的每一个字符
echo "abc" | while read line;
do
    for word in $line;
    do
        for((i=0;i<${#word};i++));
        do
            echo ${word:i:1};
        done;
    done;
done
#写成一行
echo "abc" | while read line; do for word in $line; do for((i=0;i<${#word};i++)); do echo ${word:i:1}; done; done; done
#a
#b
#c
#${#word}返回变量word的长度


按列合并文件

可以使用paste命令实现列拼接

#paste - merge(整合) lines of files
echo -e  "1\n2\n3" > 1.txt && echo -e "Line1\nLine2\nLine3" > 2.txt
paste 1.txt 2.txt
1   Line1
2   Line2
3   Line3
#默认定界符是制表符,用-d指定
paste 1.txt 2.txt -d','


打印文件或行中的第n个单词或n列

awk -F':' '{print $1,$3}' file1
cut -d':' -f 1,3 file1


打印不同行或样式之间的文本

awk 'NR==1,NR==10' /etc/passwd
awk 'NR==1,NR==10' /etc/passwd | awk -F":" '{print $1,$NF}' #打印特定行内的特定列

awk '/start_pattern/, /end_pattern/' file   #打印start到end之间的内容,可使用re
awk '/root/, /zhang/' /etc/passwd   #打印root到zhang之间内容
awk '/^ro.?t/, /bash$/' /etc/pass


以逆序形式打印行

可以使用awk, tac完成。tac就是反过来的cat。

#tac - 反转显示文件中的行,行内的内容无法用tac反向排列
tac 1.txt
awk '{lifo[NR]=$0; lno=NR} END{ for(;lno>-1;lno--) {print lifo[lno]};}' 1.txt


解析文本中的电子邮件和URL

从给定的文件中解析出所需要的文本是我们从事文本处理时的一项任务。

#egrep

#匹配一个邮箱地址
egrep -o '[a-zA-Z0-9.]+@[0-9a-zA-Z.]+\.[a-zA-Z]{2,4}' emails.txt

#匹配一个URL地址
egrep -o "http://[a-zA-Z0-9.]+\.[a-zA-Z]{2,3}" urls.txt


打印某个样式之前/之后n行

grep "zhang" /etc/passwd -A 5   #Ater
grep "zhang" /etc/passwd -B 5   #Before
grep "zhang" /etc/passwd -C 5   #前后五行都打印


在文件中移除包含某个单词的句子

只要能写出正确的正则表达式(Regular Expression),那就手到擒来

sed 's/[^.]*handsome boy[^.]*\.//g' file.txt    #句子以.结束


文本切片与参数操作

#替换变量内容中的部分文字
var="One two three"
echo ${var/t/T} #只替换了一个
#One Two three

#指定字符串起始位置和长度
#${变量:开始部分:长度}
${vari:start:length}
echo {var:0:2}  #On
echo {var:1:6}  #ne two

#起始字符的索引是0,将最后一个字符索引记为-1
echo ${var:(-1)}    #e
echo ${var:(-3):3}  #ree
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,157评论 2 33
  • 知识点 sort uniq cut wc sed命令 awk命令 crontab定时器 sort sort 命令对...
  • 本文承接之前写的三十分钟学会AWK一文,在学习完AWK之后,趁热打铁又学习了一下SED,不得不说这两个工具真的堪称...
    mylxsw阅读 4,396评论 3 74
  • sed与awk实例 文本间隔 在每一行后面增加一空行 将原来的所有空行删除并在每一行后面增加一空行。这样在输出的文...
    stuha阅读 1,895评论 0 21
  • 基础命令 主要的命令和快捷键 Linux系统命令由三部分组成:cmd + [options]+[operation...
    485b1aca799e阅读 1,094评论 0 0