Day6之7天了解生信——医学小菜鸡

今日份学习——R包的学习

R包的数量太多太多，自己要学会去学习，健明老师在视频里说过R包要学会自己去摸索里面的函数，每个R包都有示例，自己去发现每个代码，每个函数的含义。而不是单纯的粘贴复制过后就算了。

今日以dplyr包为基础学习R包

> library(dplyr)             #首先加载dplyr包
> test <- iris[c(1:2,51:52,101:102),]    #使用内置数据集iris并提取子集

> mutate(test, new = Sepal.Length * Sepal.Width)   #mutate函数代表新增列
     Sepal.Length Sepal.Width Petal.Length Petal.Width    Species   new
1          5.1         3.5          1.4         0.2     setosa 17.85
2          4.9         3.0          1.4         0.2     setosa 14.70
3          7.0         3.2          4.7         1.4 versicolor 22.40
4          6.4         3.2          4.5         1.5 versicolor 20.48
5          6.3         3.3          6.0         2.5  virginica 20.79
6          5.8         2.7          5.1         1.9  virginica 15.66

> select(test,1)    #select函数代表按列，列名筛选
    Sepal.Length
1            5.1
2            4.9
51           7.0
52           6.4
101          6.3
102          5.8
 
> select(test,c(1,5))    #提取第1，5列
    Sepal.Length    Species
1            5.1     setosa
2            4.9     setosa
51           7.0 versicolor
52           6.4 versicolor
101          6.3  virginica
102          5.8  virginica
 
> select(test,Sepal.Length)   #提取Sepal.Length列
    Sepal.Length
1            5.1
2            4.9
51           7.0
52           6.4
101          6.3
102          5.8

> vars <- c("Petal.Length", "Petal.Width")   #先将字符串赋值给vars
> select(test, one_of(vars))                         #提取列名为Petal.Length", Petal.Width的两列 
    Petal.Length Petal.Width
1            1.4         0.2
2            1.4         0.2
51           4.7         1.4
52           4.5         1.5
101          6.0         2.5
102          5.1         1.9

> filter(test, Species == "setosa", )       #filter函数筛选行
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa

> filter(test, Species == "setosa"&Sepal.Length > 5 )   #筛选setosa这行且Sepal.Length > 5
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa

> filter(test, Species  %in%  c("setosa","versicolor"))   
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          5.1         3.5          1.4         0.2     setosa
2          4.9         3.0          1.4         0.2     setosa
3          7.0         3.2          4.7         1.4 versicolor
4          6.4         3.2          4.5         1.5 versicolor

# 按某1列或某几列对整个表格进行排序，默认从小到大排序
> arrange(test, Sepal.Length)    
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          4.9         3.0          1.4         0.2     setosa
2          5.1         3.5          1.4         0.2     setosa
3          5.8         2.7          5.1         1.9  virginica
4          6.3         3.3          6.0         2.5  virginica
5          6.4         3.2          4.5         1.5 versicolor
6          7.0         3.2          4.7         1.4 versicolor

> arrange(test, desc(Sepal.Length))    #用desc降序排序
  Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1          7.0         3.2          4.7         1.4 versicolor
2          6.4         3.2          4.5         1.5 versicolor
3          6.3         3.3          6.0         2.5  virginica
4          5.8         2.7          5.1         1.9  virginica
5          5.1         3.5          1.4         0.2     setosa
6          4.9         3.0          1.4         0.2     setosa

> summarise(test, mean(Sepal.Length), sd(Sepal.Length))    # 计算Sepal.Length的平均值和标准差
  mean(Sepal.Length) sd(Sepal.Length)
1           5.916667        0.8084965

> #先按照Species分组，然后计算每组Sepal.Length的平均值和标准差
> group_by(test, Species)
# A tibble: 6 x 5
# Groups:   Species [3]
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species   
*        <dbl>       <dbl>        <dbl>       <dbl> <fct>     
1          5.1         3.5          1.4         0.2 setosa    
2          4.9         3            1.4         0.2 setosa    
3          7           3.2          4.7         1.4 versicolor
4          6.4         3.2          4.5         1.5 versicolor
5          6.3         3.3          6           2.5 virginica 
6          5.8         2.7          5.1         1.9 virginica 

> summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
# A tibble: 3 x 3
  Species    `mean(Sepal.Length)` `sd(Sepal.Length)`
  <fct>                     <dbl>              <dbl>
1 setosa                     5                 0.141
2 versicolor                 6.7               0.424
3 virginica                  6.05              0.354

dplyr两个实用技能

管道操作 %>% （快捷键：cmd/ctr + shift + M）
基础知识：管道%>% 来自magrittr 包
阅读代码时，%>%最好读作“然后”。使用这种方法时，x %>% f(y) 会转换为f(x, y)，x %>% f(y) %>% g(z) 会转换为g(f(x,y), z)，以此类推。

> test %>% 
+   group_by(Species) %>% 
+   summarise(mean(Sepal.Length), sd(Sepal.Length))
# A tibble: 3 x 3
  Species    `mean(Sepal.Length)` `sd(Sepal.Length)`
  <fct>                     <dbl>              <dbl>
1 setosa                     5                 0.141
2 versicolor                 6.7               0.424
3 virginica                  6.05              0.354

2：count函数统计某列的unique值

> count(test,Species)
# A tibble: 3 x 2
  Species        n
  <fct>      <int>
1 setosa         2
2 versicolor     2
3 virginica      2

Day6之7天了解生信——医学小菜鸡

Day6之7天了解生信——医学小菜鸡

今日份学习——R包的学习

R包的数量太多太多，自己要学会去学习，健明老师在视频里说过R包要学会自己去摸索里面的函数，每个R包都有示例，自己去发现每个代码，每个函数的含义。而不是单纯的粘贴复制过后就算了。

今日以dplyr包为基础学习R包

dplyr两个实用技能

相关阅读更多精彩内容

友情链接更多精彩内容