两个dataframe数据之间的连接关系
经常会碰到需要把两个数据进行合并,大的方向有按“列”和按"行"合并两种方式,这里主要讲下按“列”进行合并,如下图,假设有a、b两个数据,注意共有的列是”chr"和“bin";值为1,2,3,4,5的bin是a、b共有的; 值为10,11,12的bin是a独有的;值为6,7,8,9的bin是b独有的;默认是按照共有列进行连接
full_join
我认为从连接后的记录数理解可能更好些,full_join连接后的记录数等于”共有的记录数+a独有的记录数+b独有的记录数“,根据连接键,共有的记录数为5,a独有的记录数为3,b独有的记录数为4,所以为12,结果可以理解为a、b的并集
inner_join
inner_join连接后的记录数等于”共有的记录数“, 也就是5,结果可以理解为a、b的交集,R语言中的merge函数也可以实现
相信你已经猜到left_join和right_join的记录数是多少了
left_join
left_join连接后的记录数等于”a的记录数“,当然,a是需要放在第一个参数,这篇文章讲的都是a作为连接函数的第一个参数值,b作为连接函数的第二个参数值
right_join
right_join连接后的记录数等于”b的记录数“
其他连接
有些人可能看到过semi_join和anti_join连接,semi_join连接其实是在inner_join的结果中只取属于a的字段(也就是列)
而anti_join其实就是a独有的记录
其他语言也是一样的理解!
作者:WortJohn
链接:https://www.jianshu.com/p/bf02ace4ba5c