Linux学习 - sed使用


欢迎关注生信宝典:http://mp.weixin.qq.com/s/cywkIeRbhkYTZvkwTeIVSA

sed基本参数解释

sed是stream editor的简称,擅长对文件进行各种正则操作、插入操作、替换操作和删除操作,可以全局,可以指定特定范围的行或者特定特征的行。

s/pat/replace/: 正则替换

前插行i, 后插行a, 替换行c, 删除行d, 输出行p

N: 读入下一行,同时存储;n:读入下一行,抛弃当前行

常见操作

  • 替换特定的文本
ct@ehbio:~/SXBD$ cat mat
ID  2 cell  4 cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1_3  2   3   4   5
ct@ehbio:~/SXBD$ sed 's/ /_/' mat 
ID  2_cell  4 cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1_3  2   3   4   5
ct@ehbio:~/SXBD$ sed 's/ /_/g' mat 
ID  2_cell  4_cell  8_cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1_3  2   3   4   5
  • 获得逗号分隔的一组数
ct@ehbio:~/SXBD$ echo `seq 1 10` | sed 's/ /,/g'
1,2,3,4,5,6,7,8,9,10
  • 针对指定行替换
ct@ehbio:~/SXBD$ sed '2,$ s/_[0-9]//g' mat 
ID  2 cell  4 cell  8 cell  embryo
Pou5f1  2   3   4   5
Nanog   2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1    2   3   4   5
  • 替换特定出现位置
# 替换第一个空格
ct@ehbio:~/SXBD$ sed 's/ /_/1' mat 
ID  2_cell  4 cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1_3  2   3   4   5
# 替换第二个空格
ct@ehbio:~/SXBD$ sed 's/ /_/2' mat 
ID  2 cell  4_cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1_3  2   3   4   5
# 替换第二个及以后的空格
ct@ehbio:~/SXBD$ sed 's/ /_/2g' mat 
ID  2 cell  4_cell  8_cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1_3  2   3   4   5
  • 给序列起名字
ct@ehbio:~/SXBD$ cat seq
ACDGTFGGCATGCDTGD
ACDGAGCDTAGCDGTA
CAGDTAGDCTADTG
ct@ehbio:~/SXBD$ sed = seq
1
ACDGTFGGCATGCDTGD
2
ACDGAGCDTAGCDGTA
3
CAGDTAGDCTADTG
# 同时缓冲两行,但只对第一行行首操作
ct@ehbio:~/SXBD$ sed = seq | sed 'N;s/^/>/;'
>1
ACDGTFGGCATGCDTGD
>2
ACDGAGCDTAGCDGTA
>3
CAGDTAGDCTADTG
  • 给文件增加标题行
ct@ehbio:~/SXBD$ tail -n +2 mat | sort -k2,2n
c-Myc   2   3   4   5
Nanog_1 2   3.2 4.3 5
Pou5f1_1    2   3   4   5
Tet1_3  2   3   4   5

# 1 表示第一行
# i 表示插入,在指定行前面插入新行
ct@ehbio:~/SXBD$ tail -n +2 mat | sort -k2,2n | sed '1 i ID\t2_cell\t4_cell\t8_cell\tembryo'
ID  2_cell  4_cell  8_cell  embryo
c-Myc   2   3   4   5
Nanog_1 2   3.2 4.3 5
Pou5f1_1    2   3   4   5
Tet1_3  2   3   4   5
  • 提取特定或指定范围的行
# -n是必须的,阻止程序自动输出匹配行,不然会导致重复输出
ct@ehbio:~/SXBD$ sed -n '2,4p' mat
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
ct@ehbio:~/SXBD$ sed -n '4p' mat
c-Myc   2   3   4   5
  • 提取符合特定模式的行
ct@ehbio:~/SXBD$ sed -n '/_/ p' mat
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
Tet1_3  2   3   4   5
ct@ehbio:~/SXBD$ sed -n '/-/ p' mat
c-Myc   2   3   4   5
  • 去除文件中的空行
ct@ehbio:~/SXBD$ cat mat
ID  2 cell  4 cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5

c-Myc   2   3   4   5
Tet1_3  2   3   4   5
# 空行就是只有行首和行尾的行
ct@ehbio:~/SXBD$ sed '/^$/d' mat 
ID  2 cell  4 cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1_3  2   3   4   5
  • 原位删除
ct@ehbio:~/SXBD$ cat mat
ID  2 cell  4 cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5

c-Myc   2   3   4   5
Tet1_3  2   3   4   5

# -i 参数的使用
ct@ehbio:~/SXBD$ sed -i '/^$/d' mat 
ct@ehbio:~/SXBD$ cat mat
ID  2 cell  4 cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc   2   3   4   5
Tet1_3  2   3   4   5
  • 删除指定范围的行
ct@ehbio:~/SXBD$ cat mat
ID  2 cell  4 cell  8 cell  embryo
Pou5f1_1    2   3   4   5
Nanog_1 2   3.2 4.3 5
c-Myc_2 2   3   4   5
Tet1_3  2   3   4   5

ct@ehbio:~/SXBD$ sed '2,3d' mat
ID  2 cell  4 cell  8 cell  embryo
c-Myc_2 2   3   4   5
Tet1_3  2   3   4   5
  • 记忆匹配

\(\)启动记忆匹配;\1为第一个匹配项,\2为第二个匹配项;匹配项的计数根据左括号出现的位置来定,第一个(包括起来的为\1

ct@ehbio:~/SXBD$ echo "hah ehbio hah" | sed 's/ \(.*\) /\t\1\t\1\t/'
hah ehbio   ehbio   hah
  • 奇偶数行处理
ct@ehbio:~/SXBD$ echo -e "odd\neven\nodd\neven"
odd
even
odd
even

# 奇偶数行合并
ct@ehbio:~/SXBD$ echo -e "odd\neven\nodd\neven" | sed 'N;s/\n/\t/'
odd even
odd even

# 取出偶数行,比较简单
# 注意 n (小写)撇掉了奇数行
ct@ehbio:~/SXBD$ echo -e "odd\neven\nodd\neven" | sed -n 'n;p'
even
even

# 取出奇数行
# 先都读进去,然后替换偶数行为空值,再输出
ct@ehbio:~/SXBD$ echo -e "odd\neven\nodd\neven" | sed -n 'N;s/\n.*//;p'
odd
odd
  • Windows/Linux换行符困境

Windows下的换行符是\r\n, Linux下换行符是\n, MAC下换行符是\r。所以Windows下的文件拷贝到Linux后,常会出现行尾多一个^M符号的情况,从而引起匹配或其它解析问题。

^M的输是 ctrl+v+M ctrl+v;ctrl+m,不是简单的输入^,再输入M

ct@ehbio:~/SXBD$ cat -A windows.txt 
ID^M$
A^M$
B^M$
C^M$
ct@ehbio:~/SXBD$ sed 's/^M//' windows.txt | cat -A
ID$
A$
B$
C$
  • sed中使用bash变量
# 注意双引号的使用
ct@ehbio:~/SXBD$ bash_variable='ehbio'
ct@ehbio:~/SXBD$ echo "sheng xin bao dan " | sed "s/$/$bash_variable/"
sheng xin bao dan ehbio

正则表达式不同语言略有差别,但整体相近,更多正则操作见:不用Linux也可以的强大文本处理方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,001评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,210评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,874评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,001评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,022评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,005评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,929评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,742评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,193评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,427评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,583评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,305评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,911评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,564评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,731评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,581评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,478评论 2 352

推荐阅读更多精彩内容

  • 本文承接之前写的三十分钟学会AWK一文,在学习完AWK之后,趁热打铁又学习了一下SED,不得不说这两个工具真的堪称...
    mylxsw阅读 4,397评论 3 74
  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,158评论 2 33
  • 基础命令 主要的命令和快捷键 Linux系统命令由三部分组成:cmd + [options]+[operation...
    485b1aca799e阅读 1,094评论 0 0
  • 学习资料:《linux大棚命令百篇上》 什么是sed sed是stream editor的缩写,翻译过来就是“流编...
    陌上疏影凉阅读 830评论 0 3
  • Linux sed命令是利用script来处理文本文件。sed可依照script的指令,来处理、编辑文本文件。Se...
    姜淑均阅读 726评论 1 2