Pandas具有全功能的,高性能内存中连接操作,与SQL等关系数据库非常相似
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True,
suffixes=('_x', '_y'), copy=True, indicator=False)
1--merge合并表
#df1,df2,个表按照'key'个键值合并 对多合并2张表
# 多个链接键
.merge(df3,df4,on=['key1','key2']))
合并表df3,df4 以 ['key1','key2']
# 参数.merge (how )→ 合并方式
2--# 参数how → 合并方式
how = 'left' , how = 'right'
3---没有公共键值时
参数 left_on=‘’, right_on=‘’
当一边以index为键时,
left_index=Ture
, right_index=Ture
4--排序
(df1,df2, sort=True,on='key', how='outer')
# 也可直接用Dataframe的排序方法:
以自定义的键值:sort_values()
以index:sort_index
5--# pd.join() → 直接通过索引链接
6--value值重复的
suffixes=[ 'x2', 'x1']
7--如果index 不一样时
可以用 X1.join(X2, on=‘value’)