1、pathseq的简介
建议参考连接:https://mp.weixin.qq.com/s/aPY6nLJJdpipym7Td6sFsA
PathSeq 是一个 GATK 管道,用于检测取自宿主生物体(例如人类)的短读长深度测序样本中的微生物。比如人类肿瘤测序数据,就可以使用它看看是否有微生物序列!
下图总结了它的工作原理。该管道先对reads进行质量过滤,减去来自宿主的reads,将剩余的(非宿主)reads与微生物参考基因组比对,并生成检测到的微生物的表。结果可用于确定微生物的存在和丰度以及发现新的微生物序列。
2、准备参考文件
宿主的参考基因组
微生物参考基因组
-
最新的微生物参考文件:
更新时间:2019年12月
微生物的参考基因组大小为64.6G
https://console.cloud.google.com/storage/browser/gcp-public-data--broad-references/hg38/v0/CrossSpeciesContamination
broad的数据包集合
更新时间:2017年12月
gsutil ls gs://gatk-best-practices/pathseq/resources/
gs://gatk-best-practices/pathseq/resources/
gs://gatk-best-practices/pathseq/resources/RefSeq-release91.catalog.gz
gs://gatk-best-practices/pathseq/resources/index.html
gs://gatk-best-practices/pathseq/resources/meats.dict
gs://gatk-best-practices/pathseq/resources/meats.fa
gs://gatk-best-practices/pathseq/resources/meats.fa.fai
gs://gatk-best-practices/pathseq/resources/meats.fa.img
gs://gatk-best-practices/pathseq/resources/meats.min2k.db
gs://gatk-best-practices/pathseq/resources/pathseq_bundle_readme.txt
gs://gatk-best-practices/pathseq/resources/pathseq_host.bfi
gs://gatk-best-practices/pathseq/resources/pathseq_host.fa.img
gs://gatk-best-practices/pathseq/resources/pathseq_host.tar.gz
gs://gatk-best-practices/pathseq/resources/pathseq_microbe.tar.gz
gs://gatk-best-practices/pathseq/resources/pathseq_microbe_list.txt
gs://gatk-best-practices/pathseq/resources/pathseq_taxonomy.tar.gz
gs://gatk-best-practices/pathseq/resources/taxdump.tar.gz</pre>
- 下载数据
建议下载最新的微生物参考文件
gsutil cp gs://gcp-public-data--broad-references/hg38/v0/CrossSpeciesContamination/CrossSpeciesContaminant/pathseq_microbe.fa ./
或者 下载资源包中的数据,二选一
gsutil cp gs://gatk-best-practices/pathseq/resources/pathseq_microbe.tar.gz ./
pathseq_microbe.tar.gz这个压缩包包含了以下四个文件,总文件大小 90G
3、报错处理
3.1 java IO报错
gatk处理大的bam文件的时候,可能在IO上报错:
“java.io.FileNotFoundException Too many open files”
原因:
Linux的系统对每个程序最多处理的文件数目有限制。
ulimit -n
ulimit -s
解决方法:
使用prlimit命令更改使用的进程的最大文件数目。
prlimit --pid <pid> --nofile=102400:102400