利用TRUST4从bulk RNA-seq中重构免疫组数据

昨天老师发给我一篇生信女神Shirley Liu的文章,看了里面的内容之后感觉很兴奋~它可以不做免疫组测序,直接从Bulk RNA-seq或者scRNA-seq里面重构得到免疫组的信息。


中文翻译

文章要点

  1. Although less sensitive than TCR-seq and BCR-seq, TRUST is able to identify the abundantly expressed and potentially more clonally expanded TCRs/BCRs in the RNA-seq data that are more likely to be involved in antigen binding
  2. Recent years have also seen other computational methods introduced for immune repertoire construction from RNA-seq data, including V’DJer, MiXCR, CATT and ImRep. These methods focus on reconstruction of complementary-determining region3 (CDR3), with limited ability to assemble full-length V(D)J receptor sequences, although CDR1 and CDR2 on the V sequence still contribute considerably to anti- gen recognition and binding.

TRUST4和其他重构算法相比,它的特点:

  1. 可利用FASTQ或BAM文件
  2. 可重构更长,甚至全长的TCR或BCR序列
  3. 更快更敏感

虽然TRUST4也可以从单细胞数据中重构,今天我主要想试一试从Bulk中重构

1. 安装

git clone https://github.com/liulab-dfci/TRUST4.git
make
#我想添加环境变量,但不知道问什么总是失败
#所以决定再目标文件夹对run-trust4文件创建软链接
ln -s /home/user/myh/install/TRUST4/run-trust4 /home/user/myh/**/TRUST4_outs
cd /home/user/myh/**/TRUST4_outs
./run-trust4
#可以使用

2.用法

官方Usage

Usage: ./run-trust4 [OPTIONS]
    Required:
        -b STRING: path to bam file
        -1 STRING -2 STRING: path to paired-end read files
        -u STRING: path to single-end read file
        -f STRING: path to the fasta file coordinate and sequence of V/D/J/C genes
    Optional:
        --ref STRING: path to detailed V/D/J/C gene reference file, such as from IMGT database. (default: not used). (recommended) 
        -o STRING: prefix of output files. (default: inferred from file prefix)
        --od STRING: the directory for output files. (default: ./)
        -t INT: number of threads (default: 1)
        --barcode STRING: if -b, bam field for barcode; if -1 -2/-u, file containing barcodes (defaul: not used)
        --barcodeRange INT INT CHAR: start, end(-1 for lenght-1), strand in a barcode is the true barcode (default: 0 -1 +)
        --barcodeWhitelist STRING: path to the barcode whitelist (default: not used)
        --read1Range INT INT: start, end(-1 for length-1) in -1/-u files for genomic sequence (default: 0 -1)
        --read2Range INT INT: start, end(-1 for length-1) in -2 files for genomic sequence (default: 0 -1)
        --UMI STRING: if -b, bam field for UMI; if -1 -2/-u, file containing UMIs (default: not used)
        --umiRange INT INT CHAR: start, end(-1 for lenght-1), strand in a UMI is the true UMI (default: 0 -1 +)
        --mateIdSuffixLen INT: the suffix length in read id for mate. (default: not used)
        --skipMateExtension: do not extend assemblies with mate information, useful for SMART-seq (default: not used)
        --abnormalUnmapFlag: the flag in BAM for the unmapped read-pair is nonconcordant (default: not set)
        --noExtraction: directly use the files from provided -1 -2/-u to assemble (default: extraction first)
        --repseq: the data is from TCR-seq or BCR-seq (default: not set)
        --outputReadAssignment: output read assignment results to the prefix_assign.out file (default: no output)
        --stage INT: start TRUST4 on specified stage (default: 0)
            0: start from beginning (candidate read extraction)
            1: start from assembly
            2: start from annotation
            3: start from generating the report table

我的数据是小鼠的数据,先用一个Fastq文件试一试

./run-trust4 -f /home/user/myh/install/TRUST4/mouse/GRCm38_bcrtcr.fa --ref /home/user/myh/install/TRUST4/mouse/mouse_IMGT+C.fa -1 /home/user/myh/raw_data/AEKIBULK/inputs/clean_data/KI_T/KIT11_1.clean.fq.gz -2 /home/user/myh/raw_data/AEKIBULK/inputs/clean_data/KI_T/KIT11_2.clean.fq.gz -o KIT11

可以通过-t调节可用的线程数

看到这里表示已经跑完了

因为我的数据里面是分选了T细胞和B细胞的,但我用T细胞的数据跑也能重构到BCR的结果,Emmm

注意一下TRUST4跑完是不会主动生成文件夹的,所有的结果都散在那里……

XX_report.tsv里面有如下信息:

可直接用于immunarch

还会生成airr文件,也可用于immunarch分析

对于T细胞的结果,我把BCR链删掉后,用immunarch进行后续分析

补充一点关于用VDJtools分析的内容
下载好VDJtools后
参考

1.Basic analysis
1.1 CalcBasicStats

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar CalcBasicStats -m /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/metadata.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs
# /path to vdjtools/:  vdjtolls的安装路径
#output_prefix: 输出路径

VDJtools的格式
注意在CDR3aa里面,要删除out_of_frame的内容,不然vdjtools无法识别

1.2 CalcSegmentUsage

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar CalcSegmentUsage -p -f "group" -m /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/metadata.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs 

#-p : 画图,依赖于R包
#-f  : 指定分组依据,分组信息在metadata文件中
#--plot-type png 输出png图片

1.3 CalcSpectratype
Calculates spectratype, that is, histogram of read counts by CDR3 nucleotide length.

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar CalcSpectratype -a -m /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/metadata.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs
#-a :Will use CDR3 amino acid sequences for calculation instead of nucleotide ones

1.4 PlotFancySpectratype
Plots a spectratype that also displays CDR3 lengths for top N clonotypes in a given sample.This plot allows to detect the highly-expanded clonotypes.

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar PlotFancySpectratype -t 5 /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/AE_T_5.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs
#-t:Number of top clonotypes to visualize. Should not exceed 20, default is 10
#单一样本

下面这个不知道为啥没跑出来

java -jar /home/user/myh/install/VDJtools/vdjtools-1.2.1/vdjtools-1.2.1.jar CalcPairwiseDistances -p -m /home/user/myh/raw_data/AEKIBULK/vdjtools/inputs/metadata.txt /home/user/myh/raw_data/AEKIBULK/vdjtools/outs
#-p: plot

如果要看单细胞的数据:

./run-trust4 -b /home/user/myh/raw_data/***/possorted_genome_bam.bam -f /home/user/myh/install/TRUST4/human/hg38_bcrtcr.fa --ref /home/user/myh/install/TRUST4/human/human_IMGT+C.fa --barcode CB -o XXX
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355

推荐阅读更多精彩内容