利用cellranger构建病毒基因组并整合到人中定量分析

1.软件和参考基因组文件下载

cellranger下载

建议下载比较新的的,我这个是因为想和原文保持一致所以才下载的老版本
官网下载:https://www.10xgenomics.com/support/software/cell-ranger/downloads

cd ~/software/cellranger
wget -O cellranger-6.0.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.0.2.tar.gz?Expires=1724881187&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=HPfORTrF4M976zLUm~6mC08BoeC56ON8095j5s02yB-x1hRxFkIvhfBgMiRCYtrh1-s59agfNWPcS5Dc61joZCR-Cf72~ONizQ0ovhQgKz2lYt0nPZhsVeJEW2SN0gReUMPPNASu4YH851-E~FqNxaj34jzic7Wq90rMt-yr-No-5iOEZwPeNIUeVQ2qQ-nRId7q4QEVRLymDqhJn6RtPsU~e6addCfkiZZSemhCpzxiYOCmHztLaNQbkzemD8vSPmAjgvHWbwX5HPuuXcehhI3~Fr0KHWNkSa06e4MN0H-IQ6SpqqHJeERcIEu~5P6JlWLG0Vg5TN6gBkVNHySn5w__"
tar -xzvf cellranger-6.0.2.tar.gz

参考基因组下载

Human hg38

# hg38 
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz

# mm10
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz)
# hg38 & mm10
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz

Virus (以SASR1为例)

在该文章中SASR1对应的annotation是NC_004718.3
病毒参考文件需要准备:基因组的DNA序列文件(FASTA格式)& 基因的注释文件(GTF格式)。常用的Ensembl和NCBI数据库都提供了这两种格式的文件。

以NCBI下载病毒参考文件

  1. NCBI 输入accession--点击标题进入--分别按照下图参数下载对应 .fasta 和 .gff3 文件

修改下名称便于后续分析:NC_004718.3.fa NC_004718.3.gff3

  1. gff3 文件后续用代码转换为 .gtf 文件
    使用gffread包转换格式
cd ~/software/cellranger/files/
gffread NC_004718.3.gff3 -T -o NC_004718.3.gtf

转换后的原始GTF文件可以看到包含三种类型,但是由于cellranger makrdf只识别exon所以需要再进行修改,只保留transcript所在的行,并把"transcript"替换为"exon"即可。(有些unknown的行可以手动删除)

修改前NC_004718.3.gtf
修改前NC_004718.3.gtf

注意!GTF文件具有其特定格式,改动过程要注意不要改变其原本格式,定量过程中最关键的是第9列要包含"transcript_id"和"gene_id","gene_name"最好也保留。

构建人类和病毒的混合参考基因组

合并文件

分别合并.fa .gtf文件

cd ~/software/cellranger/files/
cat GRCh38-2020-A.fa NC_004718.3.fa > SARS1_GRCh38-2020-A.fa
cat GRCh38-2020-A.gtf NC_004718.3.gtf > SARS1_GRCh38-2020-A.gtf
#通过检测各文件行数进行 check
grep -c ">" SARS1_GRCh38-2020-A.fa # 195
grep -c ">" GRCh38-2020-A.fa # 194
wc -l SARS1_GRCh38-2020-A.gtf # 2765999
wc -l GRCh38-2020-A.gtf # 2765974

构建参考文件

这里使用特定的cellranger版本(v6.0.2)来进行构建

cd ~/software/cellranger/files/
/home/chencx/software/cellranger/cellranger-6.0.2/cellranger mkref --genome=SARS1_GRCh38-2020-A \
                 --fasta=SARS1_GRCh38-2020-A.fa \
                 --genes=SARS1_GRCh38-2020-A.gtf

构建后的文件如下图所示


参考基因组定量

使用cellranger count进行定量分析
--transcriptome指定构建的新文件夹

/home/chencx/software/cellranger/cellranger-6.0.2/cellranger count --id=SARS1 \
 --transcriptome=/home/chencx/software/cellranger/files/SARS1_GRCh38-2020-A \
 --fastqs=/file_path/primary_seq/SARS1 \
 --sample=SARS1 \
 --localcores=10 \
 --localmem=200

结果

查看目标基因表达

欢迎大家评论交流!
(每帖分享:我身体里的火车从来不会错轨,所以接受大雪,风暴,泥石流和荒谬)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容