干货 | 如何利用RNA-seq数据分析病毒整合情况?


    哈喽大家好,好久不见。因为疫情原因很多小伙伴们已经居家办公很久了,大家可能也在思考一个问题:在宅家期间没有办法做实验的情况下、如何利用公共数据库做一些课题呢?今天和大家分享一个关于利用RNA-seq数据分析病毒整合情况的应用。一个关于新冠病毒整合的具体应用实例如下,本文中的代码也都参考自这篇文章,大家可以结合自己具体的研究课题做一些尝试。以下我们以HBV作为案例进行学习。

前期准备:

1、首先前往GENCODE官网(https://www.gencodegenes.org)下载人基因组注释文件(“gencode.v38.annotation.gtf.gz“);同时前往NCBI官网下载HBV基因组注释文件(“Sequence.gff3“)。按照以下方式合并Human+HBV的注释文件,命名为“combined.gtf“;

2、同时合并Human+HBV的fasta文件。命名为“combined.fa“;

3、下载并安装STAR、Samtools;

4、下载并安装Picard(http://broadinstitute.github.io/picard)。

分析流程:

1、建立Human+HBV基因组索引文件index

# STAR --runMode genomeGenerate \

--runThreadN 50 \

--genomeDir /path/to/file/comnined_index \

--genomeFastaFiles /path/to/file/combined.fa \

--sjdbGTFfile /path/to/file/combined.gtf \

--sjdbOverhang 99

参数:

–runMode genomeGenerate:基因组生成模式

–runThreadN:启用线程数

–genomeDir:索引输出路径

–genomeFastaFiles:参考基因组路径

–sjdbGTFfile:参考基因组注释文件

–sjdbOverhang:对于不同长度的读取,理想值为--sjdbOverhangmax(ReadLength)-1。在大多数情况下,默认值100与理想值类似。

2、采用STAR进行比对

# nohup STAR --outSAMtype BAM SortedByCoordinate \

--runThreadN 20 \

--genomeDir /path/to/file/combined_index \

--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \

--readFilesCommand zcat \

--outFileNamePrefix ./ Seq_Data_Chimeric &

参数:

–runThreadN:启用线程数

–genomeDir:索引路径

–readFilesIn:输入fastq的文件路径

–outSAMtype BAM SortedByCoordinate:输出排序的bam文件

–outFileNamePrefix:输出文件前缀

3、提取Virus-Host嵌合序列

# mkdir Seq_Data_Chimeric1

# nohup STAR --runThreadN 10 \

--genomeDir /path/to/file/combined_index \

--readFilesIn Seq_Data_out_R1.fastq.gz Seq_Data_out_R2.fastq.gz \

--readFilesCommand zcat \

--alignIntronMax 1 \

--chimOutType Junctions SeparateSAMold WithinBAM HardClip \

--chimScoreJunctionNonGTAG 0 \

--alignSJstitchMismatchNmax -1 -1 -1 -1 \

--chimSegmentMin 25 \

--chimJunctionOverhangMin 25 \

--outSAMtype BAM SortedByCoordinate \

--outFileNamePrefix ./Seq_Data_Chimeric1 \

--outTmpDir ./Temp &

4、采用Samtools提取Viral reads

# samtools view -b Seq_Data_ChimericAligned.sortedByCoord.out.bam chrHBV > Seq_Data_Aligned.sortedByCoord.out.bam

5、采用Picard提取junction文件

# cut -f 10 Seq_Data_ChimericChimeric.out.junction > Seq_Data.junction.ids

# java -jar /path/to/file/picard.jar FilterSamReads I= Seq_Data_ChimericAligned.sortedByCoord.out.bam O=hv-Seq_Data-Chimeric.out.bam READ_LIST_FILE= Seq_Data.junction.ids FILTER=includeReadList

6、利用UCSC BLAT工具搜索嵌合序列中来自人类及病毒的序列

注:红色为病毒来源序列,蓝色为人类基因序列,绿色为重叠序列。

7、采用Circos (http://circos.ca)对junction文件进行可视化

参考文献:

[1] Zhang L, Richards A, Barrasa MI, Hughes SH, Young RA, Jaenisch R. Reverse-transcribed SARS-CoV-2 RNA can integrate into the genome of cultured human cells and can be expressed in patient-derived tissues. Proc Natl Acad Sci U S A. 2021;118(21):e2105968118. doi:10.1073/pnas.2105968118

[2] Kazachenka A, Kassiotis G. SARS-CoV-2-Host Chimeric RNA-Sequencing Reads Do Not Necessarily Arise From Virus Integration Into the Host DNA. Front Microbiol. 2021;12:676693. Published 2021 Jun 2. doi:10.3389/fmicb.2021.676693

[3] Yin Y, Liu XZ, He X, Zhou LQ. Exogenous Coronavirus Interacts With Endogenous Retrotransposon in Human Cells. Front Cell Infect Microbiol. 2021;11:609160. Published 2021 Feb 25. doi:10.3389/fcimb.2021.609160

[4] Sung WK, Zheng H, Li S, et al. Genome-wide survey of recurrent HBV integration in hepatocellular carcinoma. Nat Genet. 2012;44(7):765-769. Published 2012 May 27. doi:10.1038/ng.2295

往期文章推荐:

干货 | 如何对fastq文件进行批量处理?

干货 | 一文教会你如何分析ATAC-seq数据

干货 | 一文教会你如何采用Linux系统处理RNAseq测序数据

干货 | 全基因组CRISPR文库筛选数据分析——MAGeCKFlute

转录组数据分析之时序分析(maSigPro包)

如何将转录组数据mapping到自己的序列并可视化?(HISAT2+Samtools+IGV)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容