前言
如何用R语言来快速统计向量中每个元素的个数呢?今天我们来分享两个含量函数分别是table、rle,第一个函数用过R的人应该都了解,第二个rle函数就不常见了,可能很多人都不知道。下面我们就展示一下这个函数如何来统计向量中元素的个数。
- table函数
首先来展示一下如何用table函数来统计元素个数,例如我们有下面这样的文件,内容如下:
> head(df)
gene InputP mType
1 ENSG00000007376.8 RPUSD1 3.698 protein_coding
2 ENSG00000010256.11 UQCRC1 6.170 retained_intron
3 ENSG00000010361.14 FUZ 4.147 protein_coding
4 ENSG00000015475.18 BID 3.408 protein_coding
5 ENSG00000023191.17 RNH1 3.930 protein_coding
6 ENSG00000030582.18 GRN 5.407 retained_intron
第三列是基因的类型,我们现在想统计一下每种类型的基因型数,示例代码如下:
#统计结果直接生成数据框
> as.data.frame(table(df$mType))
Var1 Freq
1 lncRNA 12
2 nonsense_mediated_decay 18
3 processed_pseudogene 1
4 processed_transcript 22
5 protein_coding 271
6 retained_intron 24
7 TEC 1
8 transcribed_processed_pseudogene 1
9 transcribed_unprocessed_pseudogene 2
是不是很方便快捷,统计结果直接转化为数据框看起来更清晰明了。
- rle函数
该函数也可以用来统计向量中元素的个数,但统计之前先把向量排个序,然后再进行统计,示例代码如下:
#使用rle函数统计元素个数,结果转化为数据框
> data.frame(rle(sort(df$mType))[2],rle(sort(df$mType))[1])
values lengths
1 lncRNA 12
2 nonsense_mediated_decay 18
3 processed_pseudogene 1
4 processed_transcript 22
5 protein_coding 271
6 retained_intron 24
7 TEC 1
8 transcribed_processed_pseudogene 1
9 transcribed_unprocessed_pseudogene 2
#rle函数返回的结果是一个list
> str(rle(sort(df$mType)))
List of 2
$ lengths: int [1:9] 12 18 1 22 271 24 1 1 2
$ values : chr [1:9] "lncRNA" "nonsense_mediated_decay" "processed_pseudogene" "processed_transcript" ...
- attr(*, "class")= chr "rle"
>
用rle函数来统计元素个数也是相当的方便,但要注意两个细节,该函数统计前需要对向量先排序,返回的结果是list格式。
最后
emm,今天就分享到这里,R语言的有好多使用的函数,多了解一点使用起来就会更方便一点。