RNA-seq数据处理前后的比较

处理前的fastq原数据,trim-galore处理后的fq.gz(fastq)数据 (若处理数据则需要在rna小环境下进行,此次主要是查看文件,在conda的环境下进行)

运行命令
cd ${workdir}/04.clean
zcat SRR1039510_1.fastq.gz | paste - - - - > raw.txt
zcat SRR1039510_1_val_1.fq.gz |paste - - - - > trim.txt
awk '(length($4)<63){print$1}' trim.txt > ID
head -n 100 ID > ID100
grep -w -f ID100 trim.txt | awk '{print$1,$4}' > trim.sm
grep -w -f ID100 raw.txt | awk '{print$1,$4}' > raw.sm
paste raw.sm trim.sm | awk '{print$2,$4}' | tr ' ' '\n' |less -S

实例运行:

(base) May5 10:51:27 ~
$ workdir=$HOME/project/airway
(base) May5 10:58:59 ~
$ cd /trainee2/May5/project/airway/04.clean/
(base) May5 11:00:34 ~/project/airway/04.clean
$ ls
clean_qc                                   SRR1039510.trim.log                        SRR1039512_1.fastq.gz
filter.sh                                  SRR1039511_1.fastq.gz                      SRR1039512_1.fastq.gz_trimming_report.txt
SRR1039510_1.fastq.gz                      SRR1039511_1.fastq.gz_trimming_report.txt  SRR1039512_1_val_1.fq.gz
SRR1039510_1.fastq.gz_trimming_report.txt  SRR1039511_1_val_1.fq.gz                   SRR1039512_2.fastq.gz
SRR1039510_1_val_1.fq.gz                   SRR1039511_2.fastq.gz                      SRR1039512_2.fastq.gz_trimming_report.txt
SRR1039510_2.fastq.gz                      SRR1039511_2.fastq.gz_trimming_report.txt  SRR1039512_2_val_2.fq.gz
SRR1039510_2.fastq.gz_trimming_report.txt  SRR1039511_2_val_2.fq.gz                   SRR1039512.trim.log
SRR1039510_2_val_2.fq.gz                   SRR1039511.trim.log
(base) May5 11:01:01 ~/project/airway/04.clean
$ zcat SRR1039510_1.fastq.gz |paste - - - - >raw.txt  #将原始fastq数据4行拼成一行
(base) May5 11:05:58 ~/project/airway/04.clean
$ wc -l raw.txt
25000 raw.txt   #原始read的条数
(base) May5 11:06:11 ~/project/airway/04.clean
$ zcat SRR1039510_1_val_1.fq.gz |paste - - - - >trim.txt   #将trim_galore修剪后的fq(fastq)数据4行拼成一行
(base) May5 11:11:30 ~/project/airway/04.clean
$ wc -l trim.txt 
24448 trim.txt  #trim_galore处理后read的条数
(base) May5 11:11:41 ~/project/airway/04.clean
$ less -S trim.txt 
(base) May5 11:19:34 ~/project/airway/04.clean
$ awk '(length($4)<63){print $1}' trim.txt >ID   #打印出trim.txt中第4列碱基小于63的行的第1列 (即第4列碱基小于63的行的SRR名称‘@开头的数字’)并重定向到ID文件
(base) May5 11:52:08 ~/project/airway/04.clean
$ wc -l ID   #查看ID文件的行数,即表示有多少条read被trim_galore了
1282 ID
(base) May5 11:28:38 ~/project/airway/04.clean
$ less -N ID
(base) May5 11:33:11 ~/project/airway/04.clean
$ head -n 100 ID >ID100   #取ID前100个read并重定向到ID100
(base) May5 11:34:41 ~/project/airway/04.clean
$ wc -l ID100
100 ID100
(base) May5 11:34:49 ~/project/airway/04.clean
$ grep -w -f ID100 trim.txt |  awk '{print $1,$4}' >trim.sm  #用ID100中的名称在trim.txt中进行匹配,并打印出匹配行的第1列和第4列,重定向到trim.sm文件
(base) May5 11:37:23 ~/project/airway/04.clean
$ grep -w -f ID100 raw.txt |  awk '{print $1,$4,$8}' >raw.sm  #用ID100中的名称在raw.txt中进行匹配,并打印出匹配行的第1列和第4列,并重定向到raw.sm文件
(base) May5 11:39:13 ~/project/airway/04.clean
$ head -n 5 *.sm   #打印出raw.sm,trim.sm的前5行
==> raw.sm <==
@SRR1039510.8 CTCATTTTCATCTTCACCATCAACAGAGAGAGCAGCATACTTGCTTGCAGAACTGAACTTAGA HIIIJJJJIIIIIJIJIGIIJJJJIJHIIIIIIGIGJJIIIIJJJJJIJJJJJJIGGIGJJIJ
@SRR1039510.60 AACCTTGGATTTAGCGGCTGAGTACTTCCTCTTGTACATGGCCTTTCTGGAATACATGGCAGA HJJJJJJJHJJJIJIJJJJJIJBFHIIIJIJJJGFGIJIIJJHHJJIJJJJGIJHHHHHHFFF
@SRR1039510.108 GAATTAGCAACTGTGAAACGTCCTCAGGAGAGAAGCTACATGCTGCAGAGGTGGCAAGAAGAT HJJJJJJJJJJJJHIIIJIJHIJJJJJJIJJJJJJJJJJJJJJJJJJJJJJCHGIJJHHHHFF
@SRR1039510.154 TGGTCAGATAGCCCTTGTCTCCCGCCGCCAATCTCTGGCCCCTAGCAGCACGGAGCAGACGGC HHIABBHGIIJEIIIGGHIHGIGCGHG@DFBGGCCEC;CHHH2?EHFFB@BADBB########
@SRR1039510.159 TGAAGTCACTTTTATAGAAGCTGTGTTAAATTATGGAAAGTACCTTGGGAGATAAGCTCAAGA HJJJJIIJJJJJJJJIJJJJJJJJIIJJJJJJJJJJJJJJGGIJJJJJJJJJJIJJJIJIIJJ

==> trim.sm <==
@SRR1039510.8 CTCATTTTCATCTTCACCATCAACAGAGAGAGCAGCATACTTGCTTGCAGAACTGAACTT
@SRR1039510.60 AACCTTGGATTTAGCGGCTGAGTACTTCCTCTTGTACATGGCCTTTCTGGAATACATGGC
@SRR1039510.108 GAATTAGCAACTGTGAAACGTCCTCAGGAGAGAAGCTACATGCTGCAGAGGTGGCAAGA
@SRR1039510.154 TGGTCAGATAGCCCTTGTCTCCCGCCGCCAATCTCTGGCCCCTAGCAGCACGGAG
@SRR1039510.159 TGAAGTCACTTTTATAGAAGCTGTGTTAAATTATGGAAAGTACCTTGGGAGATAAGCTCA

(base) May5 11:45:32 ~/project/airway/04.clean
$ paste raw.sm trim.sm | awk '{print$2,$3,$5}'  |tr ' ' '\n'  |less -N #将raw.sm trim.sm文件拼成一行(按前后顺序),取第2,3,5列(即原始序列,质量值,修剪后的序列),将空格替换为换行(\n),用less进行查看

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352