R语言基础系列:
tidyverse是一组处理与可视化R包的集合,它们共享通用数据表示和API设计。
tidyverse中的包修改的相当频繁,可以通过运行tidyverse_update()
函数来检查是否有更新,并选择是否更新。
library(tidyverse) #单个命令加载了几十个包
tidyverse_packages(include_self = TRUE) #查看其中的包
[1] "broom" "cli" "crayon" "dbplyr" "dplyr"
[6] "dtplyr" "forcats" "googledrive" "googlesheets4" "ggplot2"
[11] "haven" "hms" "httr" "jsonlite" "lubridate"
[16] "magrittr" "modelr" "pillar" "purrr" "readr"
[21] "readxl" "reprex" "rlang" "rstudioapi" "rvest"
[26] "stringr" "tibble" "tidyr" "xml2" "tidyverse"
核心包 | 功能 |
---|---|
ggplot2 | 可视化数据 |
dplyr | 数据操作语法,可以用它解决大部分数据处理问题 |
tidyr | 清理数据 |
readr | 读入表格数据 |
purr | 提供一个完整一致的工具集增强R的函数编程 |
tibble | 新一代数据框 |
stringr | 提供函数集用来处理字符数据 |
forcats | 提供有用工具用来处理因子问题 |
常见功能及对应的包和函数
1. 数据导入
- readr:read_csv(), read_tsv(), read_delim()
- readxl:read_xls(), read_xlsx()
- haven:打开SAS 、SPSS、Stata等外部数据
- BDI:定义R和数据库管理系统(DBMS)之间的通用接口
- httr:httr的目的是为curl包提供一个包装器,根据现代Web API的需求进行定制
- jsonlite:针对统计数据和Web优化的快速JSON解析器和生成器
- rvest:rvest帮助从网页中获取信息
- xxxml2:用于XML
⚠️:read.table()是R自带的,而read_table()是readr包有的
2. 数据整理
- tibble:对data.frame的改进
- tidyr:清洗数据
3. 数据转换
- dplyr:处理数据
- lubridate:处理时间数据
- stringr:处理字符串类型
- forcats:处理因子变量
4. 数据可视化
- ggplot2:高级数据可视化
5. 编程
- magrittr:使代码更具可读性的管道
- purr:通过提供一些完整连贯用于函数和向量的工具集,增强R的函数编程
6. 处理特定数据格式
- hms:轻松阅读时间
7. 建模
- modelr:提供的功能可以帮助我们在建模时创建优雅的管道
- broom:轻松地将模型提取为整洁的数据