补充知识点:
主成分分析
主要用途在于降维,析出主成分的显著差异,削减/去除回归分析和聚类分析中的次要因素及包含于内的变量
princomp()
R语言自带函数
psych包的principal()函数
---install.packages("psych")
scale()是对数据中心化的函数,当参数scale=F时,表示采用中心化将数据按列减去平均值,scale=T表示按列进行标准化,公式为(x-mean(x))/sd(x)
options(digits=4, scipen=4)
scipen是指科学计数法,一般来说如果数字很大,比如十几位甚至二十位的时候,在R里面就会显示是科学计数法的,一般R默认10万以上按照科学计数法显示,scipen = 1相当于默认设置,scipen = 2, 则大于100万以上按照科学技术法显示。而digits是设置显示多少位有效数字。
利用eigen函数计算相关系数矩阵的特征值和特征向量(PCA非常重要部分)
set.seed()产生随机数
用于设定随机数种子,一个特定的种子可以产生一个特定的伪随机序列,这个函数的主要目的,是让模拟能够重复出现,因为很多时候我们需要取随机数,但这段代码再跑一次的时候,结果就不一样了,如果需要重复出现同样的模拟结果的话,就可以用set.seed()
genefu
a package for breast cancer gene expression analysis
scran
包中cyclone函数进行单细胞转录组的细胞周期状态推断
TxDb objects
The TxDb class is a container for storing transcript annotations.
GRanges objects
The GRanges class is a container for the genomic locations and their associated annotations.
scran包中的cyclone函数
这里根据Scialdone et al. (2015) 提供的预测方法,简而言之就是利用一个做好的训练数据集和已知表达矩阵基因表达量变化进行分类。在训练数据集中,已经计算好了两两基因的差异(基因对,pair of genes / pairs),并且将属于不同细胞周期(它规定了3种量化水平:G1、S、G2M)且存在差异的基因对作为一个marker pair。然后就在已知表达矩阵中对每个细胞测试这些marker pairs与训练数据集中的相似程度,每个细胞最后都得到了在G1、S、G2/M水平的分值,最后根据分值将细胞归类。
cyclone函数主要需要三个元素:一个是sce单细胞对象表达矩阵,一个是pairs参数,还有一个是gene.names参数。
第二个参数
library(org.Mm.eg.db)
mm.pairs <- readRDS(system.file("exdata", "mouse_cycle_markers.rds",
package="scran")) (系统默认)
pairs: a list of data frames produced by sandbag, containing pairs of marker genes
第三个参数要求是Ensembl ID