登录注册写文章

SQL在数据清洗中的作用-sqldf(二)

SQL在数据清洗中的作用-sqldf(二)

继续介绍如何在R中通过sqldf包执行SQL语句

3.SQLite-JOIN

sqldf包默认以SQLite为后台执行SQL语句。

SQLite支持inner join, left (outer) join, full (outer) join和cross join, 并不支持right join。

sqldf包中的SQLite并没有对full (outer) join提供支持，故我们在sqldf中使用SQLite只支持inner join， left (outer) join和cross join，尽管如此，也能满足我们数据清洗中的大多数要求了。

先简单介绍一下各种连接。

3.1 inner join--产生两张表（数据框）的交集

df_x

df_y

df_x left join df_y

3.2 cross join

交叉连接的操作，它们都返回被连接的两个表所有数据行的笛卡尔积，返回到的数据行数等于第一个表中符合查询条件的数据行数乘以第二个表中符合查询条件的数据行数。在这里跟inner join效果是一样的。

3.3 left join--左连接

产生左边数据框的完全集，而右边中匹配的则有值，没有匹配的则以NA值取代

虽然SQLite不支持right (outer) join，但是可以通过交换表（数据框）的位置用left (outer) join实现右连接的功能。

3.4 group by 分组统计， order by 排序

按gender, year分组统计value均值,并按性别，年份排序。

Example: 根据疾病报卡数据统计每周发病人数

报卡数据样式如下，下面的日期为每个病例的发病日期，统计每周发病例数（每行为一个病例）

思路大概如下：

1.每一个日期代表一个病例，日期数据可能有缺失，需要生成一个从开始到结束的日期向量。

2.以从开始到结束的日期向量构成左表，与报卡日期进行左连接，没匹配上的日期发病数即为0。

3.根据日期生成星期变量，判断每个星期的结束和开始，并给每个星期顺序编号，以便根据星期编号分组统计发病人数。

具体实现方法可以参考下面的函数：

week_num_f <- function(dates){

##dates为报卡的日期向量，一个日期代表一个病例

df <- data.frame(date = dates)

df$date <- as.character(ymd(df$date))

df$dnum <- 1##发病例数，一行即代表1个病例

##根据报卡数据,判断起止日期

date_max <- max(ymd(df$date))

date_min <- min(ymd(df$date))

##星期天，第一天

gen_con_dates <- function(date_start, date_end){

##生成连续日期向量

date_start <- ymd(date_start)

date_end <- ymd(date_end)

return (as.character((date_start + days(0: (interval(date_start, date_end) / ddays(1))))))

}

##生成从开始到结束的日期数据框

dates_df <- data.frame(date = gen_con_dates(date_min, date_max))

dates_df$date <- as.character(dates_df$date)

##日期顺序编号

dates_df$date_num <- 1:nrow(dates_df)

##星期编号

dates_df$wday <- wday(dates_df$date)

##年份

dates_df$year <- year(dates_df$date)

##星期按照年份排序

wnums_by_year <- c(1)

##星期连续排序

wnums_conti <- c(1)

wnum_conti <- 1

for (r in 2:nrow(dates_df)){

##连续周数

if (dates_df$wday[r] == 1){##如果是周日，周数加1

wnum_conti <- wnum_conti + 1

}

wnums_conti <- c(wnums_conti, wnum_conti)

dates_df$wnum_conti <- wnums_conti

df <- sqldf('select dates_df.*, df.dnum from

dates_df left join df on

dates_df.date == df.date;')

df$dnum <- ifelse(is.na(df$dnum), 0, df$dnum)##如果日期没有匹配，说明当天没有病例，及病例数为0

df_wnum_conti <- sqldf('select *, sum(dnum) as count_dnum

from df group by wnum_conti;')##按星期分组统计每周发病例数

df_wnum_conti[, c('date_num', 'dnum', 'wday')] <- NULL

return (data_wnum_conti = df_wnum_conti)

}

最后编辑于：2019.04.01 18:25:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

pySpark 中文API (2)
pyspark.sql模块模块上下文 Spark SQL和DataFrames的重要类： pyspark.sql...
mpro阅读 13,234评论 0赞 13
SQL在数据清洗中的作用-sqldf(一)
SQL(Structured Query Language, 结构化查询语言)是用于访问和处理数据库的标准的计算机...
wangli_5e2f阅读 10,601评论 0赞 7

《SQL初学者指南》读书笔记
关系型数据库和SQL SQL语言的三个部分DML：Data Manipulation Language，数据操纵语...
Awey阅读 6,028评论 0赞 13
15个初学者必看的基础SQL查询语句
本文将分享15个初学者必看的基础SQL查询语句，都很基础，但是你不一定都会，所以好好看看吧。 1、创建表和数据插入...
小码哥教育520it阅读 3,846评论 1赞 2
SQL简明数据分析教程
SQL与MySQL简介数据库基础从SQL的角度来看，数据库就是一个以某种有组织的方式存储的数据集合。我们可以采...
heming阅读 8,725评论 1赞 8

友情链接更多精彩内容

5赞6赞

赞赏

手机看全文