解忧小工具｜公共数据库中单细胞测序数据仅有一个read文件？别放弃，还有救！！！

前些日子小编下载单细胞RNA测序数据时，发现一个奇怪的现象：明明是一个双端测序的单细胞RNA测序数据，但是数据下载界面只看到1 read per spot，且read读长为98bp（图1），熟悉10x单细胞文库结构的朋友们不难推测出来它是R2文件（也就是转录本reads），并不包含barcode和UMI信息，那么这份数据是不是就不能下载使用了呢？我们应该去哪找barcode和UMI信息呢？

图1

众所周知，10x的单细胞转录组测序文库采用双端测序，所以理论上我们在数据下载界面至少要看到2 reads per spot，分别包括R1（26bp：barcode和UMI序列）、R2（98bp：插入片段）。以图2数据为例，可以看到数据集中每个spot由三部分组成，根据测序数据碱基长度就可推测它们分别是R1、R2和I1（8bp：index序列）。

图2

先给大家说说为什么会有这种情况出现：

这是因为10x单细胞数据在实际上传的时候，很多人会选择上传bam文件，而不是fastq文件（除了fastq文件以外，SRA鼓励提交10x bam文件）。bam是Cellranger生成的输出文件之一，主要存储测序数据和参考基因组比对结果，由于其特殊高效的压缩算法，使得它的文件大小偏小，便于传输。而10x单细胞文库比较特殊，双端测序获得的两个文件中仅R2文件包含mRNA反转录后的cDNA信息，这就使得bam文件中一条read ID仅对应一行插入片段信息，而barcode和UMI以tag的形式存在于bam文件中。当作者在GEO数据库中仅上传bam文件时，系统会对提交的数据进行一系列格式转换，所以我们最终看到的便是只有1 read per spot，在tag中的barcode UMI信息不见了。

因此要获得该数据集的barcode和UMI信息，需要获取作者上传的原始bam文件。点开Data access选项（一般我们进入的SRR数据的位置其实是Metadata页面），会发现Original format中提供了原始bam文件（图3）。

图3

我们可以将Data access选项卡中找到的bam文件下载，下载的bam文件再使用10x官方提供的Cellranger里的工具bamtofastq将其转换为fastq格式文件（见图4-5）。就可以进行后续分析啦～

bamtofastq官网：https://github.com/10XGenomics/bamtofastq

#通过bamtofastq将bam转成fastq

./cellranger/lib/bin/bamtofastq --nthreads=8 P1TLH.bam.1 /output/2fq_P1TLH.bam.1

图4 数据转换完成

图5 bam文件转换为fastq文件

小知识

单细胞测序原始文件还可通过ENA数据库进行下载（https://www.ebi.ac.uk/ena/browser/home），这个数据库由EMBL-Bank 核酸序列数据库基础上发展起来，EMBL数据直接来源于测序工作者提交的数据，主要优势：界面简洁友好，数据源直接以表格呈现，且可直接得到原始数据文件的下载地址。比如图1数据，可直接在搜索栏输入SRR7276478，就可获得bam文件下载链接。

所以，在下载10x单细胞原始数据时，除了用sra-tools将SRA数据分为R1、R2、I1三个fastq.gz文件外；我们还可以直接下载bam文件（此时需注意不要再下载SRA数据了），千万别只看到1 read per spot就觉得这个数据不能用，然后就把它放弃了。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

解忧小工具｜公共数据库中单细胞测序数据仅有一个read文件？别放弃，还有救！！！

解忧小工具｜公共数据库中单细胞测序数据仅有一个read文件？别放弃，还有救！！！

相关阅读更多精彩内容

友情链接更多精彩内容