tidyverse是进行数据科学的R包,是为数据科学设计的R软件包的集合。 所有软件包都共享基本的设计理念,语法和数据结构。
安装
install.packages("tidyverse")
library(tidyverse)
tidyverse核心软件包
核心方法包括在日常数据分析中使用的软件包。 从tidyverse 1.3.0开始,以下软件包已包含在核心tidyverse中:
- ggplot2 是一个基于图形语法的创建图形的系统。
- dplyr 提供了数据处理的语法,提供了一组一致的动词来解决最常见的数据处理难题。
- tidyr 提供了一组功能来整理数据。 整洁的数据是具有一致形式的数据:简单来说,每个变量都在一个列中,并且每个列都是一个变量。
- readr 提供了一种快速而友好的方式来读取矩形数据(如csv,tsv和fwf)。
- purrr 通过提供一套完整且一致的工具来处理函数和向量,增强了R的功能编程(FP)工具包。 一旦掌握了基本概念,purrr便可以用更易于编写和更具表现力的代码替换许多for循环。
- tibble 是对数据框的重新构想,保留了证明有效的时间,而舍弃了无效的时间。
- stringr 旨在使使用字符串尽可能容易。 它建立在stringi之上,stringi使用ICU C库提供常见字符串操作的快速实现。
- forcats 可以解决因为因子导致的常见问题。 R使用因子来处理分类变量,即具有固定且已知的可能值集的变量。
Import 导入其他包来读取数据
tidyverse包安装了一系列的包来读取数据:
- DBI 读取关系型数据库。需要将DBI与特定数据库的后端配对,例如 RSQLite, RMariaDB, RPostgres, 或者 odbc.
- haven 用于 SPSS, Stata, 和 SAS 数据.
- httr 用于网页APIs.
-
readxl 用于
.xls
and.xlsx
表格数据. - googlesheets4 通过 Sheets API v4 用于 Google Sheets .
- googledrive 用于 Google Drive 文件.
- rvest 用于网页抓取.
- jsonlite 用于 JSON.
- xml2 用于 XML.
特殊数据软件包
- lubridate 用于 日期 以及 日期-时间 数据.
- hms 为一天中的时间值.
- blob 用于存储Blob(二进制)数据.
- dbplyr 通过将dplyr代码转换为SQL来使用远程数据库表。
- dtplyr 通过自动转换为等效的但通常更快的data.table代码来提供data.table后端。
程序
除了purrr提供了非常一致且自然的R对象迭代方法外,还有两个附加的dydyverse程序包可帮助应对一般的编程挑战:
magrittr 提供了在整个tidyverse中使用的管道,%>%。 它还提供了许多更专业的管道运营商(如%$%和%<>%)。
glue 提供了paste()的替代方法,使合并数据和字符串变得更加容易。
参考:https://www.tidyverse.org/packages/