原创文地址:https://mp.weixin.qq.com/s/URD3Lz69fY8CKdKT3IcNJQ
“ 本章节是数据预处理的第一步:了解数据(集)。只有充分了解了数据,我们才能对数据做进一步的预处理和后续深入的分析。”
目录
1 数据结构
str()
dim()
head()
2 描述性统计分析
summary()
psych::describe()
分组计算doBy::summaryBy
分组计算psych::describeBy
3 频数和列联表
table 一维计数
xtabs 多维(交叉)计数
gmodels::CrossTable #列联表
01
—
数据结构
严格来讲“数据结构”不是基本统计分析的内容,但是这是了解数据的第一步,因此这里做简单普及!推荐使用str()函数
class() # 数据类型
图1 View(mtcars)
> data(mtcars)
> str(mtcars)
02
—
描述性统计分析
描述性统计分析主要是认识数据的整体状况,例如是否缺失、均值、方差、中位数等描述性统计变量。推荐使用****summary()、psych::describe()
## 描述统计
summary()函数提供了最小值、最大值、四分位数、均值,另外还可以因子向量和逻辑型向量的频数统计。
> summary(mtcars)
psych::describe(mtcars) #推荐使用
> psych::describe(mtcars)
分组计算的扩展,doBy包和psych包提供了分组计算的描述性统计量的函数,doBy包中的summaryBy()函数使用的基本格式:
# doBy()包中summaryBy()函数的使用格式:
library(psych)
03
—
频数和列联表
推荐学习使用table****、xtabs、gmodels::CrossTable
## 2.频数和列联表
示例
> ## 2.频数和列联表
“ 获取源代码请至”数据驱动实践“公众号后台回复:20200524”
【往期回顾推荐】
《R数据科学》是一本专门讲解tidyverse相关包的书籍,主要涉及dplyr、tidyr、ggplot2、purrr等,非常值得学习,基本上此一本书可以解答数据处理的大部分问题