原始reads类型:
-二代测序数据
-转录组测序数据
1从原始reads中获取全长ITS序列
-( 本文所提到ITS序列为:18s + ITS1 + 5.8s + ITS2 + 26s 的简称 )
可使用GetOrganelle软件直接提取(可设参考,也可不设)
- 根据其github使用说明中的
To assembly Embryophyta plant nuclear ribosomal RNA (18S-ITS1-5.8S-ITS2-26S):
get_organelle_from_reads.py -1 forward.fq -2 reverse.fq -o nr_output -R 10 -k 35,85,115 -F embplant_nr
如需参考序列可加参数-s ref.fasta ,fungus给出了这样的提示:
if you fails with the default database, use your own seed database and label database with "-s" and "--genes"
-在植物(蕨类&卷柏)中,不加参考序列也能提出较为完整的ITS(但是加参考可能会更保险,也可设置多参考在同一文件内)
2从转录组测序reads中获取全长ITS序列
转录组数据可从1KP,NCBI等网站获取,下载后的数据为SRA数据。
2.1使用fastq-dump将SRA转换为fastq格式的文件
fastq-dump --split-3 test.sra
SRA转换为fastq新出了一个支持多线程的软件,我没试过。
由此,双端测序的SRA数据被转成
SRR_number_1.fastq
SRR_number_2.fastq
两个文件。
2.2使用Trinity对测序数据进行组装
Trinity --seqType fq --left SRR_number_1.fastq --right SRR_number_2.fastq --CPU n --max_memory 8G --output ./
值得注意的是:Trinity对输入序列的格式有要求,不符合格式的输入序列将无法组装。如果不符合格式要求则需用perl或python脚本处理。
eg:reads开头以@n/1 或 @n/2
其中n为条数(不包含0,按顺序排列的自然数)
/1 、/2 为区分双端测序的识别标志
格式正确:
格式错误:
![格式错误](https://upload-images.jianshu.io/upload_images/23669329-3d6a6502 80b93269.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
错误的格式五花八门
正确的格式只有一种。。。
2.2选取一个近缘物种的ITS作为参考序列,对Trinity组装好的转录组进行建库以及blast比对。
#建库
makeblastdb -in ./Trinity.fasta -dbtype nucl -parse_seqids -out