SRA下载工具fastq-dump参数理解

fastq-dump是常用用来下载NCBI原始测序SRA数据的工具,但是它的参数也是比较杂乱,我根据查到的数据说下我的体会

--outdir    <File_name>         # 输出文件夹名

--gzip                                    # 使用gzip压缩结果 (目的是减少占用硬盘大小)

--skip-technical                    #  只输出biological reads,不然会technical reads输出,而technical reads不是我们想要的

--split-files                            #  把pair-end测序分成两个文件输出

--fasta      <interger>            # 直接输出fasta格式,且每行的字符数是<interger>

--readids                              #  在每个reads的名字后面加上后缀 .1 和 .2,用于区分 pair-end 测序中的一对reads

--origfmt                               # 显示原始格式,便于追踪来源,同时可以显示长度信息

--dumpbase                        # 确保输出的是A, T, C, G (对于SOLiD测序会输出颜色,其他这个参数是默认的)

--offset      <interger>         # 对早期的数据进行转化 (默认是33,不要乱改)

--minSpotId     <interger>     # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)

--maxSpotId    <interger>     # 输出从minSpotId到maxSpotId的reads,一个spot可能包含多个reads (多数情况会相等)

--minReadlen  <interger>    # 过滤短reads

--clip                                      #去除标签

--aligned                               #只输出能align到human genome上的

--read-filter      "pass"           #去除全是N的reads

--stout                                   #直接把结果输出到屏幕上

别忘了加最后一个参数,就是数据名称 SRRxxxxxxxxxx

经典的代码是

fastq-dump  --outdir file_name  --gzip  --skip-technical   --readids  --read-filter  pass  --dumpbase --split-files  --clip   SRR_ID

参考自      https://edwards.sdsu.edu/research/fastq-dump

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容