P11-10个题目的答案讲解


提示: sort -u test和sort test|uniq 效果是一样的
sort的-u 选项它的作用很简单,就是在输出行中去除重复行










用tee,可以既显示在屏幕上,又保存下来了






不把报错显示出来,但是会存在log日志里




可以查看ubuntu系统配置命令https://blog.csdn.net/kinglyjn/article/details/53584652?utm_source=itdadao&utm_medium=referral





P12-数据格式
fa/fq:测序数据比对
sam/bam:压缩成二进制文件
gff/gtf:描述基因组上的结构
bigwig/wiggle:看测序深度
bed:描述坐标 类型
vcf:记录突变信息

grep '>' 文件名.fa #>是都不会变的,但是2是可能会变的

gz.结尾,用zless查看
可以复制序列在ucsc上查看染色体坐标

对这条fq进行检验,用fastqc


cat tmp.fq|paste - - - - # paset 把四行合并为一行显示

cat tmp.fq|paste - - - -|less -S


cut -c1 #取出第1个字符(即第一个碱基)

下面这幅图就是统计了每条序列的百分比

接下来看GC含量,但上面指截取了100行,也就是25条序列,下面改成截取250条序列image-20190614183153853
再跑一遍fastqc


-c 查看碱基A\T\C\G的数量,可看到A和T均比例高于C和G,下面这张图也可看出,绿色A和红色T的比例均高于蓝色C和黑色G


小写字母非常多,如图19630个'g',就是illamina 1.5,'g'地标什么呢?




103-64=29,如上图所示,第一个碱基的质量就是不到40左右
看最后一个碱基


g、f、e、d、c都有

boxplot(rep(39,19000),ylim=c(0,40))#即第一个碱基的boxplot图,如下图

dat=c(rep(35,1524),rep(36,1939),rep(37,3360),rep(38,1230),rep(39,9748))
boxplot(dat,ylim=c(0,40))

当样本多时,可以用multiqc整合成一个报告
sam和bam文件



sam是比对后的fq文件,接下来比对 hg38为构建好的索引


可以用ucsc看是否比对在了2号染色体



sam格式


如何查看bam文件,用samtools查看,就是一种压缩规则,用samtools就可以读取它

gff和gtf文件
gff主要用了注释基因组
Gtf主要用来注释基因
关注:基因名和转录本名还有gene type 如何对应上



bigwig/wiggle文件:看测序深度
用sort bam排序,排序后是按染色体顺序排序的


看下面这两幅图区别,只要加上
-h就可以查看头文件,可以看到参考



一个vcf文件的变异是咩有意义的

