挑战SQL:图解pandas的数据合并merge函数

公众号:尤而小屋
作者:Peter
编辑:Peter

大家好,我是Peter~

在实际的业务需求中,我们的数据可能存在于不同的库表中。很多情况下,我们需要进行多表的连接查询来实现数据的提取,通过SQL的join,比如left join、left join、inner join等来实现。

在pandas中也有实现合并功能的函数,比如:concat、append、join、merge。本文中重点介绍的是merge函数,也是pandas中最为重要的一个实现数据合并的函数。

看完了你会放弃SQL吗?

image

Pandas连载文章

目前Pandas系列文章已经更新了13篇,文章都是以案例+图解的风格,欢迎访问阅读。有很多个人推荐的文章:

image

参数

官网学习地址:https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#

pd.merge(left,   # 待合并的2个数据框
         right, 
         how='inner',  # ‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’
         on=None, # 连接的键,默认是相同的键
         left_on=None,  # 指定不同的连接字段:键不同,但是键的取值有相同的内容
         right_on=None, 
         left_index=False,   # 根据索引来连接
         right_index=False, 
         sort=False, # 是否排序
         suffixes=('_x', '_y'),   # 改变后缀
         copy=True, 
         indicator=False,   # 显示字段来源
         validate=None)

参数的具体解释为:

  • left、right:待合并的数据帧

  • how:合并的方式,有5种:{‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}, 默认是 ‘inner’

    1、 left:左连接,保留left的全部数据;right类似;类比于SQL的left join 或者right join

    2、outer:全连接功能,类似SQL的full outer join

    3、inner:交叉连接,类比于SQL的inner join

    4、cross:创建两个数据帧DataFrame的笛卡尔积,默认保留左边的顺序

  • on:连接的列属性;默认是两个DataFrame的相同字段

  • left_on/right_on:指定两个不同的键进行联结

  • left_index、right_index:通过索引进行合并

  • suffixes:指定我们自己想要的后缀

  • indictor:显示字段的来源

模拟数据

我们创建了4个DataFrame数据框;其中df1和df2、df3是具有相同的键userid;df4有类似的键userid1,取值也是ac,和df1或df2的userid取值有相同的部分。

import pandas as pd
import numpy as np
image
image

参数left、right

left、how就是需要连接的两个数据帧,一般有两种写法:

  • pd.merge(left,right),个人习惯
  • left.merge(right)
image

图解过程如下:

  • 两个数据框df1(left)、df2(right)有相同的字段userid
  • 默认是通过相同的字段(键)进行关联,取出键中相同的值(ac),而且每个键的记录要全部显示,比如a有多条记录
image

参数how

inner

inner称之为内连接。它会直接根据相同的列属性userid进行关联,取出属性下面相同的数据信息a、c

⚠️上面的图解过程就是默认的使用how="inner"

image

outer

outer称之为外连接,在拼接的过程中会取两个数据框中键的并集进行拼接

  • 外连接,取出全部交集键的并集。例子中是user的并集
  • 如果某个键在某个数据框中不存在数据,则为NaN
image

图解过程如下:

  • 也是根据相同的字段来进行联结:userid
  • 保留两边的全部数据,所以abcde全部存在
  • 如果某边不存在键下面的某个值,则结果中用NaN补充。比如df1的userid中存在b,但是df3中不存在,则结果b对应的score为NaN,cd类似;e在df3中存在e的取值,但是df1中不存在,则age的值为NaN
image

left

以左边数据框中的键为基准;如果左边存在但是右边不存在,则右边用NaN表示

image

图解过程如下:

  • 和上面图解过程的结果差别在于,没有出现e;
  • 当how="left",只会保留df1(left)中userid下面的全部取值,不包含e
image

right

以右边数据框中的键的取值为基准;如果右边存在但是左边不存在,则左边用NaN表示

image-20210724095138183

图解过程如下:

  • 当how="right",只会保留df3(right)中userid的全部取值
  • 结果只保留了df3的userid下面的全部取值:a、e
image

cross

笛卡尔积:两个数据框中的数据交叉匹配,出现n1*n2的数据量

image

笛卡尔积的图解过程如下:

  • 出现的数据量是4*2,userid下面的数据交叉匹配
  • 在最终结果中相同的字段userid为了避免混淆,会带上默认的后缀_x、_y
image

参数on

如果待连接的两个数据框有相同的键,则默认使用该相同的键进行联结。

上面的所有图解例子的参数on默认都是使用相同的键进行联结,所以有时候可省略。

image

再看个例子:

image

还可以将left和right的位置进行互换:

image

上面的两个例子都是针对数据框只有具有相同的一个键,如果不止通过一个键进行联结,该如何处理?通过一个来自官网的例子来解释,我们先创建两个DataFrame:df5、df6

image
image

现在进行两个数据框的合并:

image

合并的图解过程如下:

  • 通过on参数指定两个连接的字段key1、key2
  • 只有当两个数据框中的key1和key2的取值完全相同的时候(交集),才会保留下来;比如都出现了key1=K0,key2=K0和key1=K1,key2=K0。
image

在看一个通过how="outer"进行连接的案例:

image

看看图解的过程:

  • 指定连接的两个键key1、key2
  • 使用how="outer",会保留两个数据框中的全部数据。某个数据框中不存在键的值,则取NaN
image

参数left_on、right_on

上面在连接合并的时候,两个数据框之前都是有相同的字段,比如userid或者key1和key2。但是如何两个数据框中没有相同的键,但是这些键中的取值有相同的部分,比如我们的df1、df3:

image

在这个时候我们就使用left_on和right_on参数,分别指定两边的连接的键:

image

如果我们不指定,系统就会报错,因为这两个数据框是没有相同的键,本身是无法连接的:

image

参数suffixes

如果连接之后结果有相同的字段出现,默认后缀是_x_、_y。这个参数就是改变我们默认的后缀。我们回顾下笛卡尔积的形成;

image

现在我们可以指定想要的后缀:

image

indicator

这个参数的作用是表明生成的一条记录是来自哪个DataFrame:both、left_only、right_only

如果带上参数会显示一个新字段_merge

image

不带上参数的话,默认是不会显示来源的,看默认的情况:

image

总结

merge函数真的是非常强大,在工作中也使用地很频繁,完全可以实现SQL中的join效果。希望本文的图解能够帮助读者理解这个合并函数的使用。同时pandas还有另外几个与合并相关的函数,比如:join、concat、append,会在下一篇文中统一讲解。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容