1.软件和参考基因组文件下载
cellranger下载
建议下载比较新的的,我这个是因为想和原文保持一致所以才下载的老版本
官网下载:https://www.10xgenomics.com/support/software/cell-ranger/downloads
cd ~/software/cellranger
wget -O cellranger-6.0.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.0.2.tar.gz?Expires=1724881187&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=HPfORTrF4M976zLUm~6mC08BoeC56ON8095j5s02yB-x1hRxFkIvhfBgMiRCYtrh1-s59agfNWPcS5Dc61joZCR-Cf72~ONizQ0ovhQgKz2lYt0nPZhsVeJEW2SN0gReUMPPNASu4YH851-E~FqNxaj34jzic7Wq90rMt-yr-No-5iOEZwPeNIUeVQ2qQ-nRId7q4QEVRLymDqhJn6RtPsU~e6addCfkiZZSemhCpzxiYOCmHztLaNQbkzemD8vSPmAjgvHWbwX5HPuuXcehhI3~Fr0KHWNkSa06e4MN0H-IQ6SpqqHJeERcIEu~5P6JlWLG0Vg5TN6gBkVNHySn5w__"
tar -xzvf cellranger-6.0.2.tar.gz
参考基因组下载
Human hg38
# hg38
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
# mm10
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz)
# hg38 & mm10
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
Virus (以SASR1为例)
在该文章中SASR1对应的annotation是NC_004718.3
病毒参考文件需要准备:基因组的DNA序列文件(FASTA格式)& 基因的注释文件(GTF格式)。常用的Ensembl和NCBI数据库都提供了这两种格式的文件。
以NCBI下载病毒参考文件
- NCBI 输入accession--点击标题进入--分别按照下图参数下载对应 .fasta 和 .gff3 文件
修改下名称便于后续分析:NC_004718.3.fa NC_004718.3.gff3
- gff3 文件后续用代码转换为 .gtf 文件
使用gffread包转换格式
cd ~/software/cellranger/files/
gffread NC_004718.3.gff3 -T -o NC_004718.3.gtf
转换后的原始GTF文件可以看到包含三种类型,但是由于cellranger makrdf只识别exon所以需要再进行修改,只保留transcript所在的行,并把"transcript"替换为"exon"即可。(有些unknown的行可以手动删除)
修改前NC_004718.3.gtf
修改前NC_004718.3.gtf
注意!GTF文件具有其特定格式,改动过程要注意不要改变其原本格式,定量过程中最关键的是第9列要包含"transcript_id"和"gene_id","gene_name"最好也保留。
构建人类和病毒的混合参考基因组
合并文件
分别合并.fa .gtf文件
cd ~/software/cellranger/files/
cat GRCh38-2020-A.fa NC_004718.3.fa > SARS1_GRCh38-2020-A.fa
cat GRCh38-2020-A.gtf NC_004718.3.gtf > SARS1_GRCh38-2020-A.gtf
#通过检测各文件行数进行 check
grep -c ">" SARS1_GRCh38-2020-A.fa # 195
grep -c ">" GRCh38-2020-A.fa # 194
wc -l SARS1_GRCh38-2020-A.gtf # 2765999
wc -l GRCh38-2020-A.gtf # 2765974
构建参考文件
这里使用特定的cellranger版本(v6.0.2)来进行构建
cd ~/software/cellranger/files/
/home/chencx/software/cellranger/cellranger-6.0.2/cellranger mkref --genome=SARS1_GRCh38-2020-A \
--fasta=SARS1_GRCh38-2020-A.fa \
--genes=SARS1_GRCh38-2020-A.gtf
构建后的文件如下图所示
参考基因组定量
使用cellranger count进行定量分析
--transcriptome
指定构建的新文件夹
/home/chencx/software/cellranger/cellranger-6.0.2/cellranger count --id=SARS1 \
--transcriptome=/home/chencx/software/cellranger/files/SARS1_GRCh38-2020-A \
--fastqs=/file_path/primary_seq/SARS1 \
--sample=SARS1 \
--localcores=10 \
--localmem=200
结果
查看目标基因表达
欢迎大家评论交流!
(每帖分享:我身体里的火车从来不会错轨,所以接受大雪,风暴,泥石流和荒谬)