在scanpy中直接加载稀疏矩阵相比加载密集矩阵可以帮助节省数据加载的内存占用
from scipy.io import mmread
import scipy.sparse as sp
import anndata as ad
import joblib
#加载数据
X = mmread( 'matrix.mtx.gz')
X = X.T
X = sp.csr_matrix(X) #将读取的coo_matrix 转换为scanpy对象的crs_matrix(按行压缩的sparse matrix)
X.data = np.log2( X.data + 1 ) #对crs_matrix矩阵做标准化,非必须
obs = pd.read_csv('metaData.tsv',sep = '\t') #obs信息添加前面分析的细胞meta.data数据
var = pd.read_csv( 'features.tsv', index_col=0,sep = '\t',header=None) #基因信息
var.index.name = "gene_id"
ad_sc = ad.AnnData(X = X, obs = obs, var = var)
joblib.dump(ad_sc ,"ad_sc.pkl") #打包出工程对象(读取: joblib.load("ad_sc.pkl"))