问illuminna测序最上游得到的文件是什么?很多人会回答是fastq文件。其实不是,而是bcl文件。但是一般的公司只会提供处理好的fastq序列给人。为什么这样呢?为什么它不直接提供bcl给客户呢?难道这其中有什么见不得人的隐秘吗?原因很简单。因为一般的测序公司是多个样本一起上机的,也就是来自不同客户的不同样本一起上机的,这个时候得到的下机文件是bcl,然后再按照index拆分成每个客户的fastq,这个时候再发给客户就行了。因此客户看到的原始文件就只有fastq了。也就是公司是为了成本考虑。但是如果是自己建库上机(也就是自己有illumina的机器),就只能从第一步开始了。
illumina下机的文件内容大概是这样
bcl2fastq2 Conversion Software v2.20 Software Guide (15051736) (illumina.com)
要用到BCL2FAFSTQ软件
handbook-cancer-genomics/bcl_format.jpg at master · biolxy/handbook-cancer-genomics (github.com)
conda install -c bih-cubi bcl2fastq2
其中有个东西,samplesheet需要注意一下,这个要自己自定义
大概的格式如下
bcl2fastq/SampleSheet.csv at master · brwnj/bcl2fastq (github.com)
图形化开放式生信分析系统开发 - 9 Illumina测序仪测序数据自动拆分_SliverWorkspace-程序员宝宝 - 程序员宝宝 (cxybb.com)
最后得到下面的拆分数据
其实就一句代码
bcl2fastq -r 10 -p 10 -w 10 --no-lane-splitting --barcode-mismatches 1 --runfolder-dir 220725_XX --sample-sheet 220725_XX/SampleSheet.csv --output-dir ./testdata/
bcl2fastq命令参数很多,但是最常用的参数就以下几个:
-r, --loading-threads 加载线程数
-p, --processing-threads 拆分数据线程数
-w, --writing-threads 数据写入线程数
–no-lane-splitting 不按照lane拆分数据
–barcode-mismatches 允许的barcode错配数
–runfolder-dir / -R 下机数据目录
–sample-sheet samplesheet文件所在位置
–outputdir / -o 输出目录