seqtk_demultiplex的使用

本文中转自根据Barcode序列拆分fastq文件

seqtk_demultiplex 安装

wget https://github.com/jameslz/fastx-utils/raw/master/seqtk_demultiplex
 
# seqtk_demultiplex 要求GLIBC_2.14版本
wget http://ftp.gnu.org/gnu/glibc/glibc-2.14.tar.gz
mv glibc-2.14.tar.gz /opt/sysoft
cd /opt/sysoft
tar zxvf glibc-2.14.tar.gz
cd glibc-2.14
mkdir build
cd build
../configure --prefix=/sysoft/glibc-2.14
make -j4
make install
cp /opt/sysoftglibc-2.14/lib/libc-2.14.so /lib64/
cd /lib64
mv libc.so.6 libc.so.6.back
# 报错不用管 error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory
/sbin/sln libc-2.14.so /lib64/libc.so.6
 
#查看支持版本
strings /lib64/libc.so.6 |grep GLIBC
# en_US.UTF-8报错
echo "LANG=en_US.utf-8\nLC_ALL=en_US.utf-8" > /etc/environment
source /etc/environment
localedef -v -c -i en_US -f UTF-8 en_US.UTF-8

seqtk_demultiplex 参数

-1, 测序正向fastq序列,fastq文件,支持gz压缩文件
-2, 测序反向fastq序列,支持gz压缩文件
-b, barcode的文件
-d, 输入文件目录;
-l, barcode 序列长度(如长度大小不一致,填写最短的序列长度),默认5;

barcode 文件格式 (制表符分隔:共三列,第一列为样本名,第二列为正向barcode,第三列为反向barcode)

itaq1   ATCACG  TCTAAT
itaq2   CGATGT  TCTAAT
itaq3   TTAGGC  TCTAAT
itaq4   TGACCA  TCTAAT
itaq5   ACAGTG  TCTAAT
itaq6   GCCAAT  TCTAAT
itaq7   CAGATC  TCTAAT

seqtk_demultiplex 使用

./seqtk_demultiplex -b barcode.txt -1 itaq.1.fastq -2 itaq.2.fastq -l 6 -d seqtk_output
# 因为桥式PCR测序过程中双端序列方向不一定一致,因此需要颠倒两测序文件进行二次拆分,具体参见fastq_multx操作
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容