1 什么是HDF5文件?
官方介绍链接:HDF5
通俗地来说,HDF5HDF5 是一种灵活的文件储存格式,可以存储不同类型的图像和数码数据,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。
三代测序下机的原始数据不再是fastq格式了,而是换成了hdf5 格式.
HDF5格式
HDF5 文件一般以 .h5 或者 .hdf5 作为后缀名,需要专门的软件才能打开预览文件的内容。HDF5 文件结构中有 2 primary objects: Groups 和 Datasets。
(1)Groups 和 Datasets
dataset 代表数据集,一个文件当中可以存放不同种类的数据集,这些数据集如何管理,就用到了group最直观的理解,可以参考我们的文件管理系统,不同的文件位于不同的目录下。目录就是hdf5中的group, 描述了数据集dataset的分类信息,通过group 有效的将多种dataset 进行管理和区分;文件就是hdf5中dataset, 表示的是具体的数据。
(2)Dataset 组成
每个 dataset 可以分成两部分: 原始数据 (raw) data values 和 元数据 metadata (存储数据集对应的属性信息的集合)。
2 R中.h5 文件读取(10Xgenomics测序数据)
需要安装包 hdf5r
BiocManager::install("hdf5r") #安装包
library(hdf5r)
library(Seurat)
data_sample <- Read10X_h5("Women/GSE118127_RAW/GSM3319032_sample_1-1_filtered_gene_bc_matrices_h5.h5") #导入数据
data_seurat <- CreateSeuratObject(data_sample,project = "data_sample") #后面就可以单细胞处理的标准流程啦
人生苦短,一起学习叭。
参考
https://www.cnblogs.com/xudongliang/p/6907733.html
https://nbisweden.github.io/workshop-scRNAseq/labs/compiled/seurat/seurat_01_qc.html#Get_data