fastq-multx的使用

文章转自根据Barcode序列拆分fastq文件
seqtk_demultiplex 在拆分数据时无法设置 barcode 允许的错配碱基数，fastq-multx 中可以设置其参数。

fastq-multx 安装

git clone https://github.com/brwnj/fastq-multx
cd fastq-multx
make

fastq-multx 参数

-o, 输出文件，一个输入文件一个输出文件流，格式： %.R1.fq.gz， %为barcode对应的样本名
-m, barcod允许的主要错配个数，一般设置为0， 默认1
-B, barcode文件，允许单端和双端barcode
-n, 打印barcode序列
-b, 从序列的5'端碱基开始匹配barcode
-e, 从序列3'端开始匹配序列
-q, 控制barcode碱基的最小phred quality值，默认为0，不控制
-d, 控制匹配的最佳barcode位置和此佳barcode位置的位置，两个匹配距离不能超过2个碱基

barcode 文件格式 (制表符分隔：单端 barcode 只需要提供两列数据，双端 barcode 需要中间加上 ‘-”)

itaq1   ATCACG-TCTAAT
itaq2   CGATGT-TCTAAT
itaq3   TTAGGC-TCTAAT
itaq4   TGACCA-TCTAAT
itaq5   ACAGTG-TCTAAT
itaq6   GCCAAT-TCTAAT
itaq7   CAGATC-TCTAAT

fastq-multx 使用

mkdir fastq_multx_output-1
./fastq-multx/fastq-multx -B barcode.txt -m 1 -b itaq.1.fastq itaq.2.fastq -o %.R1.fastq -o %.R2.fastq
 
# 因为桥式PCR测序过程中双端序列方向不一定一致，因此需要颠倒两测序文件进行二次拆分
mkdir fastq_multx_output-2
./fastq-multx/fastq-multx -B barcode.txt -m 1 -b itaq.2.fastq itaq.1.fastq -o %.R1.fastq -o %.R2.fastq
 
# 合并两次拆分的结果
mkdir fastq_multx_output
for i in `ls fastq_multx_output-1/itaq*.R1.fastq`; do a=${i/.R1.fastq/}; a=${a/fastq_multx_output-1\//}; echo "$a"; done > sample.list
for i in `cat sample.list`; do echo "cat fastq_multx_output-1/$i.R1.fastq fastq_multx_output-2/$i.R2.fastq > ./fastq_multx_output/$i.R1.fastq"; done > command.combine.R1.list
for i in `cat sample.list`; do echo "cat fastq_multx_output-1/$i.R2.fastq fastq_multx_output-2/$i.R1.fastq > ./fastq_multx_output/$i.R2.fastq"; done > command.combine.R2.list
sh command.combine.R1.list
sh command.combine.R2.list

fastq-multx 操作方便，但是反向序列的barcode没有被切除，需要后续进一步处理。

最后编辑于：2023.03.09 22:04:40

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

fastq-multx的使用

fastq-multx的使用

相关阅读更多精彩内容

友情链接更多精彩内容