从序列到表达矩阵

平台:Linux 服务器、Rstudio
数据:NCBI数据库(SRR2932830)

1.下载序列

参考 菜鸟自学之——SRA Toolkit 的下载和使用https://blog.csdn.net/guguaihezi/article/details/81240916
可以从https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/找不同的版本,复制链接,使用wget 链接 在服务器上下载。

wget  https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz
tar xzvf sratoolkit.2.9.2-centos_linux64.tar.gz
mv sratoolkit.2.9.2-centos_linux64 ~/local/app/  #移动到指定文件夹
cd ~/local/app/  #进入本地程序安装路径
mv sratoolkit.2.9.2-centos_linux64 sratoolkit #去掉版本号是为了避免因升级而需要修改

配置文件(方法一)

vi ~/.bashrc  #用vi/vim编辑器修改bashrc文件
i  #由command line进入insertion line
 export PATH=$PATH:/home/urname/local/app/sratoolkit/bin #改成自己的地址
ESC, :wq  #退出vi编辑器并保存文件
source ~/.bashrc  #让配置生效

配置文件(方法二)

echo 'export PATH=/home/urname/local/app/sratoolkit/bin:$PATH' >> ~/.bashrc #改成自己的地址
source ~/.bashrc

从NCBI的SRA库里下载数据

prefetch SRR2932830
##或者
nohup prefetch SRR2932830 &   #不中断

2.数据质控

(1)将sra文件转化为fastq文件

下载的SRR2932830是一个PE测序结果,所以,需要 --split-files 参数将其分解为两个fastq文件。
如果不加该参数,则只有1个fastq文件(包含了两端测序的结果)

fastq-dump --split-3 SRR2932830   #将双端测序文件拆分为两个fastq文件
##或者
fastq-dump --gzip --split-files SRR2932831 #输出gz的压缩格式

(2)安装fastp或fastqc

安装与配置miniconda3时主要参考 安装fastqc_转录组启动:Miniconda安装|Aspera高速下载测序数据|Fastp质控过滤https://blog.csdn.net/weixin_30166691/article/details/112733596

conda install fastp
conda install fastqc

(3)质控&过滤

参考 RNA-Seq:从fastq到表达矩阵
https://www.jianshu.com/p/3352bfd404f3

fastp (single -end, SE)

fastp -I SRR******.fastq -O SRR******_clean.fastq

fastp (paired -end, PE)

fastp -i Sample1-1_R1.fq.gz -o Sample1-1_R1.clean.fq.gz -I Sample1-1_R2.fq.gz -O Sample1-1_R2.clean.fq.gz
##或者
fastp -i Sample1-1_R1.fq.gz -I Sample1-1_R2.fq.gz -o Sample1-1_R1.clean.fq.gz -O Sample1-1_R2.clean.fq.gz

根据质控结果决定是否需要去接头等

3.比对到参考基因组上——hisat2

(1)下载安装Hisat2

参考 生物软件(一):生物软件(Hisat2)的安装与运行https://www.jianshu.com/p/5caba78a55a4
进入网站https://daehwankimlab.github.io/hisat2/download/,复制地址

image.png

wget https://cloud.biohpc.swmed.edu/index.php/s/oTtGWbWjaxsQ2Ho/download
unzip hisat2-2.2.1-Linux_x86_64.zip
cd hisat2-2.2.1/
./hisat2
echo 'export PATH~/hisat2-2.2.1:$PATH' >> ~/.bashrc
source ~/.bashrc

(2)下载参考基因组和注释文件

使用了师兄自己组装的参考基因组,其他可参考 RNA-seq的处理流程https://zhuanlan.zhihu.com/p/261360251

(3)建立索引和对比到参考基因组

hisat2-build /public/home/st11/sequence/ReferenceData/hg38/hg38.fa genome #改成自己的.fa文件所在地址
hisat2 -x ./Reference_GRCH38/grch38_index/genome \
-1 ./trim_galore/3b-mc1_R1_val_1.fq.gz \
-2 ./trim_galore/3b-mc1_R2_val_2.fq.gz \
-S 3b-mc1.sam #这里的genome是上一步生成的genome文件位置

4.htseq工具计算count值

(1)下载安装samtools

参考 linux下samtools安装https://blog.csdn.net/Gentlezzx/article/details/121626879

##安装samtools
wget https://github.com/samtools/samtools/releases/download/1.9/samtools-1.9.tar.bz2
tar -xzvf samtools-1.9.tar.bz2
cd samtools-1.9
./configure --prefix=/home/用户名/.local
make
make install
##安装 HTSeq
conda install HTSeq

(2)samtools处理数据

samtools view -@8 -b 3b-mc1.sam > 3b-mc1.bam # sam 转为 bam
samtools sort -n 3b-mc1.bam > 3b-mc1_sort.bam #按照name排序

(3)htseq工具计算count值

htseq-count -f bam -r name -a 10 -t exon -i gene_id -m union\
3b-mc1_sort.bam  hg38_HPV16.gtf >30-mc1_counts.txt

(4)ENSG编号转为Symbol

参考 TCGA数据 ENSG编号转为Symbol(基因名称)https://blog.csdn.net/weixin_38987362/article/details/102900370

##打开30-mc1_counts.txt,加上列名,另存为genecounts.csv,在Rstudio中打开
##安装读取相关包
library(stats4)
library(BiocGenerics)
library(parallel)
library("AnnotationDbi")
library("org.Hs.eg.db")
c1g <- read.table("genecounts.csv",header = T,sep = ",",row.names = 1)
gene_up=rownames(c1g)
c1g$symbol <- mapIds(org.Hs.eg.db,keys=gene_up,column="SYMBOL",keytype="ENSEMBL",multiVals="first")
mdata<-rbind(c1g,c1g$symbol)
write.table(mdata,'./mgene.csv',sep=",")

完结撒花~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容