SRA下载工具fastq-dump参数理解

fastq-dump是常用用来下载NCBI原始测序SRA数据的工具，但是它的参数也是比较杂乱，我根据查到的数据说下我的体会

--outdir <File_name> # 输出文件夹名

--gzip # 使用gzip压缩结果（目的是减少占用硬盘大小）

--skip-technical # 只输出biological reads，不然会technical reads输出，而technical reads不是我们想要的

--split-files # 把pair-end测序分成两个文件输出

--fasta <interger> # 直接输出fasta格式，且每行的字符数是<interger>

--readids # 在每个reads的名字后面加上后缀 .1 和 .2，用于区分 pair-end 测序中的一对reads

--origfmt # 显示原始格式，便于追踪来源，同时可以显示长度信息

--dumpbase # 确保输出的是A, T, C, G （对于SOLiD测序会输出颜色，其他这个参数是默认的）

--offset <interger> # 对早期的数据进行转化（默认是33，不要乱改）

--minSpotId <interger> # 输出从minSpotId到maxSpotId的reads，一个spot可能包含多个reads (多数情况会相等)

--maxSpotId <interger> # 输出从minSpotId到maxSpotId的reads，一个spot可能包含多个reads (多数情况会相等)

--minReadlen <interger> # 过滤短reads

--clip #去除标签

--aligned #只输出能align到human genome上的

--read-filter "pass" #去除全是N的reads

--stout #直接把结果输出到屏幕上

别忘了加最后一个参数，就是数据名称 SRRxxxxxxxxxx

经典的代码是

fastq-dump --outdir file_name --gzip --skip-technical --readids --read-filter pass --dumpbase --split-files --clip SRR_ID

最后编辑于：2017.12.09 15:11:25

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。