一、教程思维导图
二、知识点
1️⃣准备工作
1.安装并加载tidyr包
install.packages("tidyr")
library(tidyr)
会有一些小细节需要注意
2.数据框常识
3.tidyr data格式
这是一种组织表格数据的方式,提供了一种能够跨包使用的“统一”的数据格式。
什么叫“统一”?
每个变量(variable)占一列,每个情况(case,姑且这么翻译)和观测值(observation)占一行。
2️⃣处理数据格式实操
1.reshape data
几种方式:
gather(a,X1999,X2000,key = "year",value = "cases")
数据框名,需合并的列名(两个),合并后的key列名,value列名。
==================================================
gather(a,"year","cases",X1999,X2000) #推荐的偷懒做法
ather(a,year,cases,-country) #-country的意思就是合并除country外剩下的列。
2.handle missing values
处理丢失的数据。就是某些单元格有空值的情况。
三种处理方式:
(1).删除整行
(2).根据上下文(瞎)蒙一个
(3).同一列的空值填上同一个数。
对应代码(公众号):
drop_na():有空值的,整行删除掉
括号里填数据框名,依据的列名(有空值那一列的列名)
drop_na(X,X2)
fill(),根据上一行的数值填充上(好应付的感觉)
fill(X,X2)
replace_na(),空值填进去特定的一个数值(还是在应付)
括号里填数据框名,要填的列名=要填的值
replace_na(X,list(X2=2))
3.expand tables
①complete(把空值的位置补全)
complete(X,nesting(X1),fill = list(X2=5))
②expand(列出每列值所有可能的组合)
需要多练习
4.split cells
separate:按列分割
separate_rows:按行分割
把一列拆成两列,原列必须要有分隔符。
unite:分割完了再合并回去