哈喽大家好,好久不见。因为疫情原因很多小伙伴们已经居家办公很久了,大家可能也在思考一个问题:在宅家期间没有办法做实验的情况下、如何利用公共数据库做一些课题呢?今天和大家分享一个关于利用RNA-seq数据分析病毒整合情况的应用。一个关于新冠病毒整合的具体应用实例如下,本文中的代码也都参考自这篇文章,大家可以结合自己具体的研究课题做一些尝试。以下我们以HBV作为案例进行学习。
前期准备:
1、首先前往GENCODE官网(https://www.gencodegenes.org)下载人基因组注释文件(“gencode.v38.annotation.gtf.gz“);同时前往NCBI官网下载HBV基因组注释文件(“Sequence.gff3“)。按照以下方式合并Human+HBV的注释文件,命名为“combined.gtf“;
2、同时合并Human+HBV的fasta文件。命名为“combined.fa“;
3、下载并安装STAR、Samtools;
4、下载并安装Picard(http://broadinstitute.github.io/picard)。
分析流程:
1、建立Human+HBV基因组索引文件index
# STAR --runMode genomeGenerate \
--runThreadN 50 \
--genomeDir /path/to/file/comnined_index \
--genomeFastaFiles /path/to/file/combined.fa \
--sjdbGTFfile /path/to/file/combined.gtf \
--sjdbOverhang 99
参数:
–runMode genomeGenerate:基因组生成模式
–runThreadN:启用线程数
–genomeDir:索引输出路径
–genomeFastaFiles:参考基因组路径
–sjdbGTFfile:参考基因组注释文件
–sjdbOverhang:对于不同长度的读取,理想值为--sjdbOverhangmax(ReadLength)-1。在大多数情况下,默认值100与理想值类似。
2、采用STAR进行比对
# nohup STAR --outSAMtype BAM SortedByCoordinate \
--runThreadN 20 \
--genomeDir /path/to/file/combined_index \
--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \
--readFilesCommand zcat \
--outFileNamePrefix ./ Seq_Data_Chimeric &
参数:
–runThreadN:启用线程数
–genomeDir:索引路径
–readFilesIn:输入fastq的文件路径
–outSAMtype BAM SortedByCoordinate:输出排序的bam文件
–outFileNamePrefix:输出文件前缀
3、提取Virus-Host嵌合序列
# mkdir Seq_Data_Chimeric1
# nohup STAR --runThreadN 10 \
--genomeDir /path/to/file/combined_index \
--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \
--readFilesCommand zcat \
--alignIntronMax 1 \
--chimOutType Junctions SeparateSAMold WithinBAM HardClip \
--chimScoreJunctionNonGTAG 0 \
--alignSJstitchMismatchNmax -1 -1 -1 -1 \
--chimSegmentMin 25 \
--chimJunctionOverhangMin 25 \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./Seq_Data_Chimeric1 \
--outTmpDir ./Temp &
4、采用Samtools提取Viral reads
# samtools view -b Seq_Data_ChimericAligned.sortedByCoord.out.bam chrHBV > Seq_Data_Aligned.sortedByCoord.out.bam
5、采用Picard提取junction文件
# cut -f 10 Seq_Data_ChimericChimeric.out.junction > Seq_Data.junction.ids
# java -jar /path/to/file/picard.jar FilterSamReads I= Seq_Data_ChimericAligned.sortedByCoord.out.bam O=hv-Seq_Data-Chimeric.out.bam READ_LIST_FILE= Seq_Data.junction.ids FILTER=includeReadList
6、利用UCSC BLAT工具搜索嵌合序列中来自人类及病毒的序列
7、采用Circos (http://circos.ca)对junction文件进行可视化
参考文献:
[1] Zhang L, Richards A, Barrasa MI, Hughes SH, Young RA, Jaenisch R. Reverse-transcribed SARS-CoV-2 RNA can integrate into the genome of cultured human cells and can be expressed in patient-derived tissues. Proc Natl Acad Sci U S A. 2021;118(21):e2105968118. doi:10.1073/pnas.2105968118
[2] Kazachenka A, Kassiotis G. SARS-CoV-2-Host Chimeric RNA-Sequencing Reads Do Not Necessarily Arise From Virus Integration Into the Host DNA. Front Microbiol. 2021;12:676693. Published 2021 Jun 2. doi:10.3389/fmicb.2021.676693
[3] Yin Y, Liu XZ, He X, Zhou LQ. Exogenous Coronavirus Interacts With Endogenous Retrotransposon in Human Cells. Front Cell Infect Microbiol. 2021;11:609160. Published 2021 Feb 25. doi:10.3389/fcimb.2021.609160
[4] Sung WK, Zheng H, Li S, et al. Genome-wide survey of recurrent HBV integration in hepatocellular carcinoma. Nat Genet. 2012;44(7):765-769. Published 2012 May 27. doi:10.1038/ng.2295
往期文章推荐:
干货 | 一文教会你如何采用Linux系统处理RNAseq测序数据