宏转录组分析

现在手里有一批NGS测序,经初步比对,95%的序列是细菌,比对到人的特别低,因为建库的时候没有做去rRNA处理,导致绝大部分序列是rRNA序列,几乎占据了90%。所以现在的分析思路是:

1# 对rRNA部分进行taxonomy分析,阿尔法、beta分析

2# 对非rRNA部分(暂时就叫mRNA),做功能注释、DEGs、富集分析, kegg,ko

3# 对每个样本病原体分析

4# 对某病毒的覆盖度、深度统计

5# 对病毒覆盖度>80%, 深度>100X的,做intra-host variant分析


首先,做数据过滤,因为是外面测序公司给的,他们已经做了基本过滤了,这一步我就省了;

接着,用sormeRNA比对到自带的几个ref,拆分出rRNA和other的序列:

sortmerna -ref xxx1 -ref xxx2 -ref xxx3 ...-reads R1.fq.gz -reads R2.fq.gz --fastx --aligned sortmenra.aligned --other --paired_in --num_alignments 1 -m 1000000 -v

注意:-m 参数我也不是很清楚怎么设,反正这一步比较慢

得到other.fq和sortmeRNA.aligned.fq

因为我的是PE reads,输出的在一个文件里,于是写个脚本把reads拆分为两个文件:

perl split_fq.pl other.fq

perl split_fq.pl sortmeRNA.aligned.fq

因为我们还没有去人源,理论上人源的在other.fq部分,于是把这一部分比对到human(bwa-mem2  mem), 然后筛选出非比对到人的reads:

grep -vE "@SQ|@RG|@PG" all_other_map2huaman.sam|awk '$3~/\*/'|awk '{print $1}' >all_other_nonhuman.list

写个脚本根据reads ID提取fastq序列:

perl extract_reads_based_on_ID.pl all_other_nonhuman.list all_other.R1.fq.gz all_other.R2.fq.gz

接着对去人源后的lnRNA部分和rRNA部分分别做kraken2注释:这就需要安装kraken2和braken2了。

Bracken (jhu.edu)

Manual · DerrickWood/kraken2 Wiki (github.com)

首先下载kraken2的数据库,看文献,需要包含archaea、bacteria、protozoa、fungi、human、virus(包括SARS-Cov-2)。可以用kraken2直接下载标准库:

kraken2-build --standard --db $DBNAME  (为你要下载到的路径)

也可以参考Index zone by BenLangmead  看这里的数据库,直接下载:

wget -c https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20200919.tar.gz

注意:网速太慢了,耗时很长

kraken2-build --download-taxonomy --db $DBNAME  (为你要下载到的路径)它其实是在$DBNAME下面建立taxonomy目录,里面放nucl_gb.accession2taxid.gz(这个暂时存疑,我还没下完)文件,这里展示的是下载中样子:

然后需要用braken(一个字母的差别,看manual,像同一家写的)建库:

braken-build -d $DBNAME -t 24 -k 35 -l 94 -x /WhereYourCommanderInstalled/kraken2 

注意:-k 35是我看到文献里一般都这么设置的,-l 94是因为我的测序读长是PE94,默认是100,根据自己实际的测序读长设置。它也会要求$DBNAME下面有library目录,要不然会报错,library下面是taxonomy,里面放着seqid2taxid.map。会生成三个文件:

database94mers.kmer_distrib

database94mers.kraken

database.kraken

于是seqid2taxid.map这个文件哪里来的?在kranken2的官网搜一下这个文件,然后直接下载:

wget -c http://ccb.jhu.edu/software/bracken/dl/seqid2taxid.map

因为服务器上有kraken2的数据库(商家自带的,他们自己整理的5w+条目,从GTDB下载的;不是标准库),暂时先用这个测试下:

/biostack/tools/microbiome/kraken2-2.0.9b/kraken2 --db /biostack/database/kraken2/kraken-db --threads 12 --report all_sortmeRNA-kraken2.report -output all_sortmeRNA-kraken2.output --paired all_sortmeRNA.R1.fq.gz all_sortmeRNA.R2.fq.gz --gzip-compressed --report-zero-counts

注意哦:这里加了--report-zero-counts参数

对kraken2的结果用braken跑个report(注意:这里有-l参数,为读长,实际测序为PE94,但没有对应长度的databaseXXXmers.kmer_distrib和databaseXXXmers.kraken文件),这里还是用-r 100试一下:

/biostack/tools/microbiome/Bracken-2.5/bracken -d /biostack/database/kraken2/kraken-db -i mRNA-kraken2.report -o mRNA.bracken -r 100 -l S -t 12

默认是100,商家也有150、200的

再对结果用krona画个图瞅瞅:

提取kraken2结果的ID和taxonomyID两列:cat mRNA-kraken2.output|cut -f 2,3 >mRNA-kraken2.output.krona

再作为krona的输入文件:

/project/baowenjuan/APP/Krona-2.7.1/KronaTools/bin/ktImportTaxonomy mRNA-kraken2.output.krona -n Bacteria


提示以上ID没有找到

我也不知道为什么。。。。在debug。。。。

2020年12月08日:

今天测试用metaphlan:

安装:conda install -c bioconda python=3.6 metaphlan

测试跑:metaphlan --bowtie2db /usr/local/lib/python3.6/site-packages/MetaPhlAn-3.0.4-py3.6.egg/metaphlan/metaphlan_databases --bowtie2out rRNA.bowtie2.out --input_type fastq all_sortmeRNA.R1.fq.gz,all_sortmeRNA.R2.fq.gz -o rRNA.metaphlan.o

提示错误:

Use of uninitialized value $bt2_args[2] in join or string 

可以忽略,这里说的:[Warnings] MetaPhlAn version 3.0 · Issue #101 · biobakery/MetaPhlAn (github.com)

但是比对率特别低:3.09% overall alignment rate。可能因为数据是采用的marker gene吧。anyway,把文献下载了现看看。

晚上看完文献,发现这个不适用于我的数据(参见我写的另外一篇 文章正在审核中... - 简书),嘻嘻嘻。白干~明天继续折腾!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容