seqtk的安装与使用

seqtk的简介

seqtk是一款快速的、轻量级的FASTA或FASTAQ格式文件的处理工具。它来自于生信大神李恒之手,被称为序列处理的瑞士军刀。它处理FASTA/Q文件十分方便,可以大大提高序列分析的效率。

seqtk的安装

(py3env) yu@yu-virtual-machine:~$ sudo apt-get install seqtk

报错:

按照提示中执行

(py3env) yu@yu-virtual-machine:~$ sudo apt --fix-broken install

修复过程中,提示是否希望继续执行,输入“y”

继续执行安装操作,安装正常进行了

检查seqtk是否安装成功

(py3env) yu@yu-virtual-machine:~$ seqtk

展示了seqtk的版本号以及基本用法:

Usage:   seqtk <command> <arguments>
Version: 1.3-r106 #版本号

Command: seq       common transformation of FASTA/Q 
         comp      get the nucleotide composition of FASTA/Q 
         sample    subsample sequences 
         subseq    extract subsequences from FASTA/Q 
         fqchk     fastq QC (base/quality summary)
         mergepe   interleave two PE FASTA/Q files
         trimfq    trim FASTQ using the Phred algorithm

         hety      regional heterozygosity
         gc        identify high- or low-GC regions
         mutfa     point mutate FASTA at specified positions
         mergefa   merge two FASTA/Q files
         famask    apply a X-coded FASTA to a source FASTA
         dropse    drop unpaired from interleaved PE FASTA/Q
         rename    rename sequence names
         randbase  choose a random base from hets
         cutN      cut sequence at long N
         listhet   extract the position of each het

seqtk的使用

以fastq格式文件Akle_TTAGGC_L004_R1_001.fastq.gz为例

1.随机抽取序列

(base) yu@yu-virtual-machine:~/biodata$ gunzip -c Akle_TTAGGC_L004_R1_001.fastq.gz |seqtk sample -s 60 - 500 >test500.fq

代码解读:
gunzip -c 表示将解压后的文件输出到标准输出设备。
seqtk sample 表示随机抽样,其中,-s 60 表示随机数种子为60,- 500 表示抽取500条序列。
>test500.fq 表示将抽取结果重定向至文件test500.qc中

统计test500.fq文件的行数

(base) yu@yu-virtual-machine:~/biodata$ wc -l test500.fq 
2000 test500.fq  #按照fastq文件格式规定一个序列占四行,500个序列正好是2000行

2.fq文件和fa文件相互转换

(base) yu@yu-virtual-machine:~/biodata$ seqtk seq test500.fq>test500.fa

结果显示为:

(base) yu@yu-virtual-machine:~/biodata$ ll
-rw-rw-r--  1 yu yu    131264  9月 30 15:37 test500.fa
-rw-rw-r--  1 yu yu    131264  9月 27 17:21 test500.fq

3.对reads的两端进行适当的修剪

(base) yu@yu-virtual-machine:~/biodata$ seqtk trimfq -b 5 -e 10 test500.fq>cut.fq 
#切除reads前5bp和后10bp的碱基

部剪切前后情况比对(以前三条序列为例)

剪切前:

剪切后:

4.获得反向互补序列

(base) yu@yu-virtual-machine:~/biodata$ seqtk seq -r test500.fq >reverse500.fq

查看反向互补结果(还是以前三条序列为例)

原序列:

互补序列:

值得注意的是,反向互补序列文件依旧沿用原序列的序列标识符,两文件要做好区分,以免混淆

5.统计序列的碱基组成

(base) yu@yu-virtual-machine:~/biodata$ seqtk comp test500.fq >agct500.fq

查看结果(以前10个为例)

结果解读:
第1列:序列名称(序列标识符)
第2列:序列总长度
第3~6列:A、C、G、T碱基数目
(其余几列的含义我还没有搞清楚,搞清楚之后会补充)

6.合并双端测序得到R1和R2序列,实现两两配对

(base) yu@yu-virtual-machine:~/biodata$ seqtk mergefa Akle_TTAGGC_L004_R1_001.fastq.gz Akle_TTAGGC_L004_R2_001.fastq.gz >merge12.fa
[stk_mergefa] (same,diff,hom-het,het-hom,het-het)=(101827379,302054713,0,0,0)

结果(以前四条为例)

参考:
https://www.jianshu.com/p/309b79238553
https://www.jianshu.com/p/856a96ba565f
https://cloud.tencent.com/developer/article/1613420
https://www.cnblogs.com/xudongliang/p/6409534.html
https://www.jianshu.com/p/8d032a29d5a1

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容