zcat SRR1039510_1.fastq.gz | head -100000 |paste - - - - > raw.txt
zcat SRR1039510_1.fastp.fq.gz |head -100000 | paste - - - - > filter.txt
awk '(length($3)<63){print$1}' filter.txt > ID
grep -w -f ID filter.txt | awk '{print$1,$3}' > filter.sm
grep -w -f ID raw.txt | awk '{print$1,$3}' > raw.sm
paste raw.sm filter.sm | awk '{print$2,$4}' | less -S
- 从修剪前后的fastq文件中各取100000行,将fastq格式文件每个序列的4行合并为1行,分别保存为raw.txt和filter.txt
- 从修剪后的filter.txt里选取被修剪过的reads(所有raw reads长度均为63,序列长度<63即为被修剪过的reads),把序列号存入文件ID。
- 分别从raw.txt和filter.txt中过滤被修剪过的reads,存入raw.sm和filter.sm
- 合并raw.sm和filter.sm,只展示序列详细信息。
结果直观的展示了reads被修剪的情况,配合前后FastQC的结果,比较直观的理解质控软件对reads的修剪,但是不能区分被删减的原因(低质量or接头)