pd.merge 根据一个或多个键将不同df中的行连接起来。
pandas.concat 可以沿着一条轴将多个对象堆叠起来。
实例方法combine_first可以将重复数据拼接在一起,用一个对象中的值填充另一个对象中的缺失值
pd.merge(df1,df2) 这里没有指明要用哪个列进行连接。如果没有指定,merge就会将重叠列的列名当做键。
pd.merge(df1, df2, on='key') 参数on明确指定哪一列作为键
pd.merge(df3, df4, left_on='lkey', right_on='rkey') 也可以分别指定键名
pd.merge(df1, df2, how='outer') 参数how说明合并方式,默认是inner,也可以指定"left"、"right"以及"outer"
pd.merge(left, right, on=['key1', 'key2'], how='outer') 要根据多个键进行合并,传入一个由列名组成的列表即可
pd.merge(left, right, on='key1', suffixes=('_left', '_right')) suffixes选项,用于指定附加到左右两个DataFrame对象的重叠列名上的字符串
pd.merge(left1, right1, left_on='key', right_index=True) 这里left_index=True或right_index=True(或两个都传)以说明索引应该被用作连接键
pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True) 这里righth是带有层次化索引的df,因此必须以列表的形式指明用作合并键的多个列
DataFrame还有一个便捷的join实例方法,它能更为方便地实现按索引合并。它还可用于合并多个带有相同或相似索引的DataFrame对象,但要求没有重叠的列。
left2.join(right2, how='outer') 这里DataFrame的join方法默认使用的是左连接,保留左边表的行索引,你可以指定
left1.join(right1, on='key') 这里可以指定left1的列作为键,注意连接的必须是right1的索引
left2.join([right2, another]) 还可以向join传入一组DataFrame,仍然需注意必须是索引合并
left2.join([right2, another], how='outer')
np.concatenate([arr, arr], axis=1) NumPy的concatenation函数可以按照指定的axis合并
pd.concat([s1, s2, s3]) 将三个series值和索引粘合在一起,默认concat是在axis=0上工作的,最终产生一个新的Series
pd.concat([s1, s2, s3], axis=1)
pd.concat([s1, s4], axis=1)
pd.concat([s1, s4], axis=1, join='inner')
pd.concat([s1, s4], axis=1, join_axes=[['a', 'c', 'b', 'e']]) 指定索引
pd.concat([s1, s1, s3], keys=['one','two', 'three']) 区分连接的片段,结果表现为层次化索引
pd.concat([s1, s2, s3], axis=1, keys=['one','two', 'three']) 这里keys会出现在列头
pd.concat([df1, df2], axis=1, keys=['level1', 'level2'])
pd.concat({'level1': df1, 'level2': df2}, axis=1) 这里字典的键会被当做keys选项的值
pd.concat([df1, df2], axis=1, keys=['level1', 'level2'],names=['upper', 'lower']) 这里可以用names参数命名创建的轴级别
pd.concat([df1, df2], ignore_index=True) 当DataFrame的行索引不包含任何相关数据时使用
合并重叠数据
np.where(pd.isnull(a), b, a)
b[:-2].combine_first(a[2:])
df1.combine_first(df2)