pandas聚合,并按特定条件筛选,计算

背景

测试新的三方数据源,为了评估三方数据源的效果。不仅需要对数据源的ks和iv进行检测,还需要针对业务口径进行检测。

分箱

一、分箱:
bins=[-5,0,400,450,500,520,540,560,580,600,620,650,670,710,900]
 df['分箱结果'] = pd.cut(df['score'], bin0)

自定义函数

def judge(x):
    d=[]
    d.append(sum(x[x.first_overdue_days>0].left_prin))
    d.append(sum(x.first_overdue_days>=7))
    d.append(sum(x.curr_overdue_days>=30))
    d.append(x.shape[0])
    return pd.Series(d,index=[['fpd','fpd7','dpd30','total'],['sum','sum','sum','sum']])

函数应用

df.groupby('分箱结果').apply(judge)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容