Day6之7天了解生信——医学小菜鸡

今日份学习——R包的学习

R包的数量太多太多,自己要学会去学习,健明老师在视频里说过R包要学会自己去摸索里面的函数,每个R包都有示例,自己去发现每个代码,每个函数的含义。而不是单纯的粘贴复制过后就算了。


今日以dplyr包为基础学习R包

> library(dplyr)             #首先加载dplyr包
> test <- iris[c(1:2,51:52,101:102),]    #使用内置数据集iris并提取子集

> mutate(test, new = Sepal.Length * Sepal.Width)   #mutate函数代表新增列
     Sepal.Length Sepal.Width Petal.Length Petal.Width    Species   new
1          5.1         3.5          1.4         0.2     setosa 17.85
2          4.9         3.0          1.4         0.2     setosa 14.70
3          7.0         3.2          4.7         1.4 versicolor 22.40
4          6.4         3.2          4.5         1.5 versicolor 20.48
5          6.3         3.3          6.0         2.5  virginica 20.79
6          5.8         2.7          5.1         1.9  virginica 15.66

> select(test,1)    #select函数代表按列,列名筛选
    Sepal.Length
1            5.1
2            4.9
51           7.0
52           6.4
101          6.3
102          5.8
 
> select(test,c(1,5))    #提取第1,5列
    Sepal.Length    Species
1            5.1     setosa
2            4.9     setosa
51           7.0 versicolor
52           6.4 versicolor
101          6.3  virginica
102          5.8  virginica
 
> select(test,Sepal.Length)   #提取Sepal.Length列
    Sepal.Length
1            5.1
2            4.9
51           7.0
52           6.4
101          6.3
102          5.8

> vars <- c("Petal.Length", "Petal.Width")   #先将字符串赋值给vars
> select(test, one_of(vars))                         #提取列名为Petal.Length", Petal.Width的两列 
    Petal.Length Petal.Width
1            1.4         0.2
2            1.4         0.2
51           4.7         1.4
52           4.5         1.5
101          6.0         2.5
102          5.1         1.9

> filter(test, Species == "setosa", )       #filter函数筛选行
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa

> filter(test, Species == "setosa"&Sepal.Length > 5 )   #筛选setosa这行且Sepal.Length > 5
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa

> filter(test, Species  %in%  c("setosa","versicolor"))   
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          5.1         3.5          1.4         0.2     setosa
2          4.9         3.0          1.4         0.2     setosa
3          7.0         3.2          4.7         1.4 versicolor
4          6.4         3.2          4.5         1.5 versicolor

# 按某1列或某几列对整个表格进行排序,默认从小到大排序
> arrange(test, Sepal.Length)    
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          4.9         3.0          1.4         0.2     setosa
2          5.1         3.5          1.4         0.2     setosa
3          5.8         2.7          5.1         1.9  virginica
4          6.3         3.3          6.0         2.5  virginica
5          6.4         3.2          4.5         1.5 versicolor
6          7.0         3.2          4.7         1.4 versicolor

> arrange(test, desc(Sepal.Length))    #用desc降序排序
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          7.0         3.2          4.7         1.4 versicolor
2          6.4         3.2          4.5         1.5 versicolor
3          6.3         3.3          6.0         2.5  virginica
4          5.8         2.7          5.1         1.9  virginica
5          5.1         3.5          1.4         0.2     setosa
6          4.9         3.0          1.4         0.2     setosa

> summarise(test, mean(Sepal.Length), sd(Sepal.Length))    # 计算Sepal.Length的平均值和标准差
  mean(Sepal.Length) sd(Sepal.Length)
1           5.916667        0.8084965

> #先按照Species分组,然后计算每组Sepal.Length的平均值和标准差
> group_by(test, Species)
# A tibble: 6 x 5
# Groups:   Species [3]
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species   
*        <dbl>       <dbl>        <dbl>       <dbl> <fct>     
1          5.1         3.5          1.4         0.2 setosa    
2          4.9         3            1.4         0.2 setosa    
3          7           3.2          4.7         1.4 versicolor
4          6.4         3.2          4.5         1.5 versicolor
5          6.3         3.3          6           2.5 virginica 
6          5.8         2.7          5.1         1.9 virginica 

> summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
# A tibble: 3 x 3
  Species    `mean(Sepal.Length)` `sd(Sepal.Length)`
  <fct>                     <dbl>              <dbl>
1 setosa                     5                 0.141
2 versicolor                 6.7               0.424
3 virginica                  6.05              0.354

dplyr两个实用技能

  1. 管道操作 %>% (快捷键:cmd/ctr + shift + M)
    基础知识:管道%>% 来自magrittr 包
    阅读代码时,%>%最好读作“然后”。使用这种方法时,x %>% f(y) 会转换为f(x, y),x %>% f(y) %>% g(z) 会转换为g(f(x,y), z),以此类推。
> test %>% 
+   group_by(Species) %>% 
+   summarise(mean(Sepal.Length), sd(Sepal.Length))
# A tibble: 3 x 3
  Species    `mean(Sepal.Length)` `sd(Sepal.Length)`
  <fct>                     <dbl>              <dbl>
1 setosa                     5                 0.141
2 versicolor                 6.7               0.424
3 virginica                  6.05              0.354

2:count函数统计某列的unique值

> count(test,Species)
# A tibble: 3 x 2
  Species        n
  <fct>      <int>
1 setosa         2
2 versicolor     2
3 virginica      2
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一年级语文上册生字表 生字表一(共400字) 啊(ā)爱(ài)安(ān)岸(àn)爸(bà)八(bā)巴(bā)...
    meychang阅读 2,896评论 0 6
  • sì 支zhī茶chá 对duì 酒jiǔ,赋fù 对duì 诗shī,燕yàn子zi 对duì 莺yīng 儿é...
    每个人的孟母堂阅读 1,269评论 0 6
  • (开经偈) 无上甚深微妙法 百千万劫难遭遇 我今见闻得受持 愿解如来真实义 第一品 Fǎ huì yīn yóu ...
    黄一轩阅读 4,339评论 0 1
  • "use strict";function _classCallCheck(e,t){if(!(e instanc...
    久些阅读 2,060评论 0 2
  • 我说我是念旧的人, 你问我哪里念旧? 你且去看!我那些入流不入流的字, 是诗不是诗的歌,是词不是词的唱。 最多的字...
    木土有阿杜阅读 201评论 2 1