生物信息常用软件使用说明记录

记录用过的一些生信软件吧

FastX格式处理系列

  • 截取数据量软件seqtk sample
$ seqtk sample
Usage:   seqtk sample [-2] [-s seed=11] <in.fa> <frac>|<number>
Options: -s INT       RNG seed [11]
         -2           2-pass mode: twice as slow but with much reduced memory

举例:
seqtk sample -s100 test.fq.gz 5242880 | pigz -p 4 > test.clean.fq.gz

  • seqtk trimfq
    也是非常快速的一款处理fasta/q文件的工具,可以截取数据量,
$ seqtk trimfq
Usage:   seqtk trimfq [options] <in.fq>
Options: -q FLOAT    error rate threshold (disabled by -b/-e) [0.05]
         -l INT      maximally trim down to INT bp (disabled by -b/-e) [30]
         -b INT      trim INT bp from left (non-zero to disable -q/-l) [0]
         -e INT      trim INT bp from right (non-zero to disable -q/-l) [0]
         -L INT      retain at most INT bp from the 5'-end (non-zero to disable -q/-l) [0]
         -Q          force FASTQ output

例如:read长度为400bp,需要截取前150bp,可以设置-e是从后端开始截取250bp,剩下的就是前150bp。
seqtk trimfq -e 250 RP01G9E1L1_R1.fq.gz >trimed_RP01G9E1L1_R1.fq
例如: read长度为400bp,需要丢掉前30bp,保留后面370bp,则可以设置-b参数
seqtk trimfq -b 30 G19E1L1_1.fq.gz > >test.fq

  • 将fastq转换为fasta
    seqkit fq2fa ../02.align/RP01G9E1L3_R1.fq.gz >RP01G9E1L3_R1.fa

  • annovar使用说明
    https://www.jianshu.com/p/9b5719304311

  • call variant 软件:GATK4 使用说明
    做WGS,或小型变异检测
    WES somatic variation pipeline正在制作中。

  • 华大主流过滤测序数据软件:SOAPnuke使用说明
    soapnuke 报错Segmentation fault,一般是fastq内容有问,检测fastq文件,可尝试用gzip -f -d -c ./a_1.fastq.gz > a_1.fastq 看看是否能够解压。如果报错 invalid compressed data--format violated

  • fastqc 原始数据质量值网页显示报告
    用法:fastqc *.fq.gz

  • 数据中的adapter处理:cutadapt
    https://www.jianshu.com/p/412e55040358

比对软件系列:

reference 相关

单细胞测序系列

  • T细胞B细胞重构CDR3的软件: mixcr

        mixcr非常简单易用,它的主要功能是能重构出CDR序列。
        用法主要有三个步骤:
        1,align
        2,assemble
        3,export
    

自己写的一些工具:

持续更新中。。。
上一次更新:2019-08-01

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容