单细胞ChIP-seq 样本聚类【TF-IDF/LSI】

缘由:

之前翻译了一篇单细胞ChIP文章 单细胞ChIP-seq技术(CoBATCH)
看到有这个图,大概意思 :将H3K27ac 位点及其细胞分别进行了层次聚类,使用HOMER进行每个enhancer module de nove TF, 使用GREAT进行GO富集分析。使用二项分布进行P-Value

image.png

以为就是行是很多peak 位置,列是不同细胞的count matrix聚类热图,用pheatmap 等等自动画出来了,但是看文章的方法部分,有点晕,LSI score 进行降维聚类???下面列出图解method 部分截图。

image.png
image
image

  • 我理解图E做法是,选出20112 个common peak 区域(Tips:没搞懂作者如何选取的这些peak位点,将所有细胞bam 合并,用macs2 callpeak -broad 大概可以获得20万个peak,猜测选取q 值最小的20112 peak区域) ; 列是不同的细胞。
  • Step1 : 想将矩阵转换成binary matrix (文章多次提到需要将peak-cell matrix 进行binary ,可能是保证单个细胞单个位点DNA 覆盖度只能为0/1 ;和sc-RNA-seq 可能不一样)
  • Step2: 进行TF-IDF 进行权重校正,好像是自然语言处理里对一篇文章中,每一个字出现的概率进行校正,当这个字在多个文章中出现越不重要,当这个字在这一篇文章中,多次出现越重要
  • Step3: 进行SVD 降维
  • Step4: 对细胞进行聚类和可视化

下面使用测试数据,完成上面操作:

### Step1:建立测试数据
dat <- matrix(sample(x = 0:2,size = 1000,replace=T,prob = c(0.5,0.3,0.2)),
  nrow = 100)
dat <- dat[apply(dat, 1, sum)!=0 ,]
dim(dat)
rownames(dat) <- paste0("peak_",1:100)
colnames(dat) <- paste0("cell_",1:10)
head(dat)

> head(dat)
       cell_1 cell_2 cell_3 cell_4 cell_5 cell_6 cell_7 cell_8 cell_9 cell_10
peak_1      1      1      0      0      0      0      0      1      0       1
peak_2      1      0      0      1      0      0      1      1      0       1
peak_3      0      0      1      0      1      0      1      0      0       0
peak_4      1      0      0      0      0      0      0      1      1       1
peak_5      1      1      0      0      0      1      1      1      1       0
peak_6      1      0      1      1      1      0      0      1      1       0
### Step2: binary matrix
dat[dat > 0] = 1
View(dat)
### Step3:TF-IDF
# 参考:https://blog.csdn.net/kMD8d5R/article/details/88564616

### 去掉0 的peak_num
library(tidyverse)
DAT <- dat
f_table <- as.data.frame(DAT) %>% mutate("peak_num"=rownames(.)) %>% 
  gather(key=cell,value=count,-peak_num)  %>% select(c(2,1,3)) %>%  
  filter(count!=0)
### Step4:加载需要包
library(pacman)
p_load(tidytext,rio,gtools)

# 参考:自然排序https://stackoverflow.com/questions/2778039/how-to-perform-natural-sorting-in-r


### Step5: 计算tf-idf
tf_idf_table <- f_table %>% 
  bind_tf_idf(term = peak_num, document = cell,n=count)
head(tf_idf_table)
### Step6 : 转换成peak-cell weight matrix
tf_idf_table_df <- tf_idf_table %>% select(c(1,2,6)) %>% spread(key = peak_num,value =tf_idf,fill=0 ) %>% 
  as.data.frame()  
rownames(tf_idf_table_df) <- tf_idf_table_df$cell
## 转置
tf_idf_table_df <- tf_idf_table_df[,-1] %>%  t() 

## 对行列排序
tf_idf_table_df <- tf_idf_table_df[mixedorder(rownames(tf_idf_table_df) ),]
tf_idf_table_df <- tf_idf_table_df[,mixedorder(colnames(tf_idf_table_df))] 

head(tf_idf_table_df)
### Step7: SVD 降维
# 参考:R语言SVD运用, https://blog.csdn.net/u013259893/article/details/40483189
# svd 输入矩阵,或者数据框
inputdata <- tf_idf_table_df
svdresults <- svd(inputdata, nu = min(nrow(inputdata), ncol(inputdata)),
                  nv = min(nrow(inputdata), ncol(inputdata)), LINPACK = F)

# Tips : 特征值10个,细胞存在10维坐标
cell_coor <- svdresults$v  ## 10个细胞降维坐标
colnames(cell_coor) <- paste0("cell_",1:10)
### Step8: 层次聚类
# 参考:https://zhuanlan.zhihu.com/p/28264290
str(cell_coor)
# 按行进行标准化,消除量纲,计算样本间距离
scale_cell_coor <- as.matrix(cell_coor) %>% t() %>% scale() %>% t()

hc <- hclust(dist(scale_cell_coor ,method = "euclidean"),method = "ward.D2")
hc

# 画聚类树状图
plot(hc,hang = -0.01,cex=0.7)
image.png

知识区1:TF-IDF 是什么?

05、文本数据转换:词袋法与TF-IDF
奇异值分解 SVD 与潜在语义分析 LSA ***

  • TF-IDF: 单个词汇在一篇文章中出现的次数越多,越重要。但是在语料库多次出现,重要性越来越低。IDF : 计算A term 出现稀少度。越稀少,越重要。


    image.png
  • TF 和IDF计算


    image.png

知识区2:SVD降维怎么做?

参考:R语言SVD运用, https://blog.csdn.net/u013259893/article/details/40483189

0.知乎解读

image.png
  1. SVD 如何计算
image.png

解释:

  • Step1 :计算B,C特征值及其对角化向量
  • Step2: 写成矩阵乘积形式
  • Step3:可以分解成多个特征值分别运算后相加.
  1. SVD 实际含义
image.png
  • 推荐系统


    image.png
  • 描述用户和商品二维可视化


    image.png

思考:

image.png
    1. 用TF-IDF + SVD 对系数矩阵处理,减低细胞维度,去掉噪音。接下来再进行聚类
    1. 通过SVD 降维结果,得到feature-sample 矩阵,需要对每一个特征进行scale, scale 标准化方法只能按列进行,需要先转置scale 再进行转置操作。


      image.png

Tips:

对单细胞分析是新手,欢迎批评指正~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352