上周,群里接到一个活,如下截图,目的是统计下公共单细胞数据的线粒体基因分布,中值基因,中值UMI这些指标,没有思路+一筹莫展,黄框处是我的任务,今天先和同事学习了下简单的文本处理(例如第三行GSE166555,先处理GSM5075660)
一、用RStudio处理
1、NCBI公共数据库中下载数据:GSM5075660(GSM5075660_p007t.tsv)
2、打开RStudio,创建新的new project,命名为Leo,在windows系统下设置路径,创建结束后将步骤1下载的数据剪切到此路径下,解压文件
3、在RStudio中加载seurat软件
library(Seurat)
4、读取下载解压后的文件
a <- read.table("GSM5075660_p007t.tsv/GSM5075660_p007t.tsv", header = T, row.names = 1)
5、使用CreateSeuratObject函数创建seurat对象
b <- CreateSeuratObject(counts = a, project = "leo" )
6、使用PercentageFeatureSet函数评估每个细胞中的线粒体表达比例
b[["Percent.mt"]] <- PercentageFeatureSet(b, pattern = "^MT-") #"^MT-"表示人类线粒体基因的匹配模式
7、计算中值基因数,中值UMI数,脚本如下
median(b@meta.data$nFeature_RNA)
median(b@meta.data$nCount_RNA)
以上7步,在RStudio中已统计结束
二、用Linux下的R语言处理
1、创建LEO文件夹,cd进入,用wget下载数据至LEO文件夹,然后解压
wget https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM5075nnn/GSM5075660/suppl/GSM5075660_p007t.tsv.gz
gunzip GSM5075660_p007t.tsv.gz
2、调用R语言,并用 setwd()设置好工作目录
setwd("~/SingleronTest/wuxuan/LEO") #这步命令运用不熟
3、加载seurat软件
library(Seurat)
4、读取下载解压后的文件
a <- read.table("~/SingleronTest/wuxuan/LEO/GSM5075660_p007t.tsv", header = T, row.names = 1)
5、使用CreateSeuratObject函数创建seurat对象
b <- CreateSeuratObject(counts = a, project = "leo" )
6、使用PercentageFeatureSet函数评估每个细胞中的线粒体表达比例
b[["Percent.mt"]] <- PercentageFeatureSet(b, pattern = "^MT-")
tip:第6步的结果如何查看,用下面命令
b@meta.data$Percent.mt #结果是0,表明数据已经删除了线粒体基因
7、计算中值基因数,中值UMI数,脚本如下
median(b@meta.data$nFeature_RNA)
median(b@meta.data$nCount_RNA)
学习了一上午,记录了如何在RStudio中处理文本,以及在linux系统下调用R语言,下面再学习进阶版本的文本处理