利用linux处理fq/fa小练习

刘小泽写于19.1.11
知识就是这样,越用越熟练,像awk、grep、sed等,用时间长了就有感觉了;另外所有我们遇到的问题都能搜索到,所以不用担心办法解决
这份题不是我出的,数据也不是我的,我只是做了一遍并提取出了知识要点与一些好用的小技巧和大家分享,想看英文原版:看这里http://molb7621.github.io/workshop/Exercises/fastq_exercises.html

下载数据

$ wget http://molb7621.github.io/workshop/_downloads/SP1.fq

练习一 统计行数

统计总行数
$ wc -l SP1.fq 
1000
统计fq序列数(每四行一个fq序列)
$ wc -l Sp1.fq | awk '{print $1/4}'
250
错误示范:利用grep找开头字符@
$ grep -c "@" SP1.fq
459

因为@符号除了开头,还会在第四行Phred质量值中出现


练习二 提取fa序列

因为fq文件中的第二行是fa信息,所以想办法提取出每个fq的第二行

首先我们需要得到行号信息
$ awk '{print NR}' SP1.fq
#会输出每一行的行号,共1000行
然后利用取余/求模符号%

怎么用?例如:取出1-4行,可以这样

$ awk 'BEGIN {print 1%4}'
$ awk 'BEGIN {print 2%4}'
$ awk 'BEGIN {print 3%4}'
$ awk 'BEGIN {print 4%4}'

#关于BEGIN的作用
#  In the case of BEGIN and END blocks, awk will process the statements only once. You can use the BEGIN block to initialise variables or other routines which only need to be performed once but it can also be used to run Awk commands when there are no files to process. 

这样我们就可以对每条fq进行编号,从1-4(这里4用0表示,因为余数是0)

$ awk '{print NR % 4, $0}' SP1.fq
1 @cluster_807:UMI_GATATG
2 TTTTTCCACACGTAAAATTTATAAACATTTA
3 +
0 83EEA3:620725;DD5CAB:53C3=/472-
1 @cluster_809:UMI_CTTTTA
2 CACAAGGAATATCATTTTATTACTGTAATCA
3 +
0 ?=?A?A>@AC??A@EEEC?EC=?C@C@A?A=
这样的话,其中这4行,想要哪行选哪行
# 如果只是判断条件的话,不需要大括号。大括号的目的是运行命令 action
$ awk 'NR % 4 == 1' SP1.fq | head  # get header line
$ awk 'NR % 4 == 2' SP1.fq | head  # get sequence line
$ awk 'NR % 4 == 3' SP1.fq | head  # get comment line
$ awk 'NR % 4 == 0' SP1.fq | head  # get quality line

好了,每个fq的第二行选出来就是fa格式了

如果想看看每个fq中的fa序列出现的次数
$  awk 'NR % 4 ==2' SP1.fq | sort | uniq -c  | wc -l
#意思就是先全部选出来,然后进行A-Z排序,统计排序后两条一致的数目
240
# 有趣的是,只sort不uniq结果是正常的250,因此,有10条序列是重复出现的
再看看都是哪些序列出现了重复
$ awk 'NR % 4 ==2 ' SP1.fq | sort | uniq -c | sort -k1,1nr | head
3 CCCCCCCCCAAATCGGAAAAACACACCCCTA
3 TCCCCCCCCCAAATCGGAAAAACACACCCCC
2 CAGCTTTGCAACCATACTCCCCCCGGAACCC
2 CCCCCCCAGATCGGAAAAGCACACGCCTGAA
2 GCCCCCCCCCAAATCGGAAAAACACACCCCC
2 GGCTTTGCAACCATACTCCCCCCGGAACCCA
2 GGTTGAGCACAGGGTACTTTATTGATGGTAC
2 TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
如果选1-10bp序列,那么又是哪些重复呢?和上面统计的结果还是同一条吗?
$ awk 'NR % 4 ==2' SP1.fq | cut -c 1-10 | sort | uniq -c | sort -k1,1nr | head
4 CCCCCCCAGA
4 CCCCCCCCCA
4 GTTTTTTTTT
4 TCCCCCCCCC
4 TTTTTTTTTT
3 CAGCTTTGCA
2 AGCTTTGCAA
2 CCCCCCCCAA
2 CTTTTTTTTT
2 GAGACAGAGT
# 发现取出来10bp,统计的重复结果和对整条fa序列的统计结果不同
既然成功提取了第二行的fa序列,那么进阶一下,提取第一行,并提取出其中的cluster信息
# 原来是这样:@cluster_2:UMI_ATTCCG
# 我们想要这样:@cluster_2
# 也就是提取第一行的1-10个字符
# 第一种:利用substr搭配awk,其中$0表示一整行
# substr($field_index, start, end)
$ awk 'NR % 4 ==1 {print substr($0, 1,10)}' SP1.fq | head
# 第二种:或者通过观察发现,我们要提取的正好是:分隔的第一部分,所有还可以这样:
$ awk -F: 'NR % 4 ==1 {print $1}' SP1.fq | head

同样,也可以提取UMI(Unique Molecular Identifyier)信息

# 第三种:当然,这也是提取特定字符的第三种方法
$ awk 'NR % 4 ==1' SP1.fq | cut -d ':' -f 2 | head -3
UMI_ATTCCG
UMI_CTTTGA
UMI_GGTCAA

比较以上三种方法,可以发现:substr使用最灵活,可以按字符提取,其他两种需要指定分隔符

进阶

进阶一:利用substr,就可以整出来一个小的fq文件(比如trim掉前10bp的序列,注意质量序列也需要trim 前10个字符)

$ awk 'NR % 4 ==1 {print $0}; NR % 4==2 {print substr($0, 10,length($0))}; NR % 4 ==3 {print $0}; NR % 4 ==0 {print substr($0, 10,length($0))}' SP1.fq | head
@cluster_2:UMI_ATTCCG
CACATAATCTTCAGCCGGGCGC
+
4868>9:67AA<9>65<=>591
@cluster_8:UMI_CTTTGA
AATACTCTCCGAACGGGAGAGC
+
003,-2-22+00-12./.-.4-
@cluster_12:UMI_GGTCAA
GATCATTTTATTGAAGAGCAAG

进阶二:利用awk将fq转为fa

# 如果只是加一个">",那么还带着fastq标识符@是不对的
$ awk 'NR %4==1 {print ">"$1}; NR%4==2 {print}' SP1.fq | head
# 因此可以用substr来取
$ awk 'NR %4==1 {print ">"substr($0,2,length($0))}; NR%4==2 {print}' SP1.fq | head -4
>cluster_2:UMI_ATTCCG
TTTCCGGGGCACATAATCTTCAGCCGGGCGC
>cluster_8:UMI_CTTTGA
TATCCTTGCAATACTCTCCGAACGGGAGAGC

当转成fasta后,就可以用grep -c ">" 来统计序列的数目了

进阶三:从fasta中找到至少四个A的序列,并显示是序列名称

# 首先要构建一个名称+fa序列的子文件,然后再查找,注意grep的-B表示打印匹配行的前一行;-A表示打印匹配行的后一行
$ awk 'NR % 4 ==1 {print $0}; NR % 4 ==2 {print $0}' SP1.fq | egrep "A{4,}" -B1

上面的结果中的四个A都是序列中的吗?会不会在名称中也抓取到了AAAA
因此想要看看是否在名称中出现四个A:

# 利用awk实现
$ awk 'NR % 4 ==1 {print $0}; NR % 4 ==2 {print $0}' SP1.fq | awk '/UMI/ && /AAAA/'
# 利用grep实现
$ awk 'NR % 4 ==1 {print $0}; NR % 4 ==2 {print $0}' SP1.fq | egrep "UMI.*AAAA"

@cluster_252:UMI_CAAAAG
#还真的有一个!

参考:

关于BEGIN的作用

https://unix.stackexchange.com/questions/119907/begin-and-end-with-the-awk-command

关于awk

https://likegeeks.com/awk-command/

关于grep打印上下行

https://stackoverflow.com/questions/1072643/how-can-i-make-grep-print-the-lines-below-and-above-each-matching-line

关于匹配多项

https://www.unix.com/unix-for-advanced-and-expert-users/175146-grep-2-string-operator.html


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容