转录组入门学习(三)

学习——数据下载及质控

数据预处理

1. 准备工作
1.1 构建项目目录
  • “基因组文件”与“注释信息文件”放在同一个目录中
  • 原始数据目录
  • 结果文件目录:包括“比对结果”与“定量结果”


    阿里云终端截图,不能安装tree包
#解决办法
sudo apt-get update #进行升级
#之后安装tree
apt install tree
#但是当时没考虑用conda直接安装tree
#安装完毕后,运行tree时发现有乱码,解决方法:
alias tree='tree --charset ASCII'
解决之后的tree命令状态
1.2 参考序列下载
  • 参考基因组 fasta
  • 注释信息 gtf/gff
1.3 原始数据上传
  • 检查数据完整性:md5值
  • 给自己的文件生成md5值:
  • 比对已有的md5值:
md5sum *gz > md5.txt    #生成md5.txt文件
md5sum -c md5.txt       #检查md5文件的一致性
2. 质量控制:两个软件
2.1 FastQC
  • 安装:conda
#FastQC为java软件,需要预先配置Linux java 环境
getconf LONG_BIT  #查看系统是32位还是64位
wget -c http://download.oracle.com/otn-pub/java/jdk/8u151-b12/e758a0de34e24606bca991d704f6dcbf/jdk-8u151-linux-x64.tar.gz
tar zxf jdk-8u151-linux-x64.tar.gz  #解压缩
mkdir java
mv ./jdk1.8.0_151/ ./java  #将解压缩的文件移入新文件夹

#在profile中加入下面的内容
vi .profile   
JAVA_HOME=/usr/java/jdk1.8.0_151
export JRE_HOME=/usr/java/jdk1.8.0_151/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

reboot   #重启计算机
  • 如何批量处理多个样品
#方法1:
fastqc sample*gz     #fastq文件不需要解压
rm -f *html    #删除所有html文件(-f (--force): 强制删除文件或目录,没有提示)
rm -f *zip     #删除所有zip文件

#方法2:
for i in 'ls *gz'; do fastqc $i; done #依次遍历以gz结尾的文件,并进行fastqc命令

#方法3:
ls *gz | xargs -I [] echo 'nohup fastqc [] &' > fastqc.sh
#并行处理多个样本
#解释:
#ls *gz |: 列出文件列表,并通过管道操作符传入后面
#xargs -I: xargs命令是给其他命令传递参数的一个过滤器,也是组合多个命令的一个工具。把前一个命令的输出结果当做后一个命令的输入文件。
#它擅长将标准输入数据转换成命令行参数,xargs能够处理管道或者stdin并将其转换成特定命令的命令参数。
#[]: 替代符
2.2 MultiQC
  • 安装:conda
  • 特点:
    1. 自动检测已有输出结果
    2. 支持多种结果的整合
  • 同时展示多个结果文件
3. 质量过滤
  • 软件:Trimmomatic
  • 特点:
    1. 支持多线程,处理数据速度快
    2. 主要用来去除 Illumina 平台接头
    3. 根据碱基质量值对 fastq 进行筛选
    4. 支持 SE 和 PE 测序数据,支持 gzip 和 bzip2 压缩文件
  • 过滤依据
    1. Illumianclip: 过滤reads 中的illumina 接头
    2. LEADING: 从 reads 开头切除质量值低于阈值的碱基
    3. TRAILING: 从 reads 末尾切除质量值低于阈值的碱基
    4. SLIDINGWINDOW: 从 reads 的 5' 端开始,进行滑窗过滤,切掉碱基质量平均值低于阈值的滑窗
    5. MINLEN: 丢弃经过剪切后长度低于阈值的这条 reads
    6. TOPHRED33: 将 reads 的碱基质量体系转为 phred-33
    7. TOPHRED64: 将 reads 的碱基质量体系转为 phred-64
  • 使用
    1. 接头序列的选择:
      "Illumian Single End" / "Illumian Paired End": "TruSeq2-SE.fa" and "TruSeq2-PE.fa"
      "TruSeq Universal Adapter" / "TruSeq Adapter, Index ...": "TruSeq3-SE.fa" and "TruSeq3-PE.fa"
    2. 去接头参数的选择: true; false
#参数:
trimmomatic PE -threads 4 \
sample1_R1.fastq.gz sample1_R2.fastq.gz \
../02clean_data/sample1_paired_clean_R1.fastq.gz \
../02clean_data/sample1_unpair_clean_R1.fastq.gz \
../02clean_data/sample1_paired_clean_R2.fastq.gz \
../02clean_data/sample1_unpair_clean_R2.fastq.gz \
ILLUMINACLIP:/home/leon/miniconda2/share/trimmomatic-0.36-5/adapters/TruSeq3-PE-2.fa:2:30:10:1:true \
LEADING:3 TRAILING:3 \
SLIDINGWINDOW:4:20 MINLEN:50 TOPHRED33

trimmomatic PE -threads 4 \
sample2_R1.fastq.gz sample2_R2.fastq.gz \
../02clean_data/sample2_paired_clean_R1.fastq.gz \
../02clean_data/sample2_unpair_clean_R1.fastq.gz \
../02clean_data/sample2_paired_clean_R2.fastq.gz \
../02clean_data/sample2_unpair_clean_R2.fastq.gz \
ILLUMINACLIP:/home/leon/miniconda2/share/trimmomatic-0.36-5/adapters/TruSeq3-PE-2.fa:2:30:10:1:true \
LEADING:3 TRAILING:3 \
SLIDINGWINDOW:4:20 MINLEN:50 TOPHRED33

#注意:冒号 ':' 之后没有空格,否则会报错
sample1运行结果
sample2运行结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350