学习<R for Data Science>第一天,了解一些基本数据科学相关知识以及tidyverse。
将要学习
关于这本书,作者给出了一个简单的学习指导,大致会学习那些内容:
Wrangle表示数据处理,包括读取,清洗和转换,目的是为了使数据内容和结构便于进行后续分析。
Program与编程相关。
Explore是指对数据进行探索,包含数据质检,数据绘图等。
Model建模检验假设。
下图概括了一般的数据科学分析流程:
- 数据输入(文本文件、数据库、网页API)。没有数据就无法进行后续分析;
- 数据整理(行为观测值,列为变量,生物等方面,行为基因等,列为样本)。整理好数据结构,可以让分析者关注数据问题本身;
- 数据转变。
整理数据和转变数据合在一起叫做数据整形(wrangle);
- 数据转变。
- 数据可视化。
- 数据建模。作为数据可视化的补充,建模是一个最基本的数学、计算机工具,应用十分广泛;
- 数据交流。无论数据可视化做得多好,模型建得多棒,最重要的还是对数据的理解并且能够拿数据与其他人交流。
不涉及内容
1.大数据:data.table
更适合处理大数据,更大则需要学Hadoop
或者Spark
了(sparklyr
,rhipe
,ddr
);
- Python和Julia等其他编程语言;
非矩阵数据(图片、声音、树、文本文件等);
命题论证:数据挖掘分为两大阵营:假设提出和假设检验(有时称为验证性分析)。
假设验证分析难,所以不讲,只讲数据探索和假设提出。一般认为模型用来假设检验,可视化用来假设提出,但这是错误的。模型也可以用来数据探索,并用可视化验证。反正两者的主要区别就是在于验证需要看一次,探索需要看很多次观察值。
学前准备
- 有编程基础,没有就去Hands on Programming with R 看看再回来;
- 安装好R、Rstudio;
- 安装好必需包
tidyverse
- 学会解决问题。有问题先谷歌,不行再上stackoverflow(要学会科学提问),最后就是R社区RStudio blog和r-bloggers;
Tidyverse
R包集合为数据科学提供工具,使之效率更高。
A collection of R packages designed to work together to make data science fast, fluent and fun.
Tidyverse官网解释为 "The tidyverse is an opinionated collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures. "
Tidyverse主要有readr, tibble, dplyr, tidyr, purrr, ggplot2等方面。
- readr - 数据读入
- dplyr - 数据操作语法,可以用它解决大部分数据处理问题
- tidyr - 清理数据
- tibble - 新的数据框
- stringr - 提供函数集用来处理字符数据
- purrr - 提供一个完整一致的工具集增强R的函数编程
- ggplot2 - 数据可视化
包的安装
install.packages("tidyverse") ### 必需包
install.packages(c("nycflights13", "gapminder", "Lahman")) ###本书需要的R包
</article>