背景
测试新的三方数据源,为了评估三方数据源的效果。不仅需要对数据源的ks和iv进行检测,还需要针对业务口径进行检测。
分箱
一、分箱:
bins=[-5,0,400,450,500,520,540,560,580,600,620,650,670,710,900]
df['分箱结果'] = pd.cut(df['score'], bin0)
自定义函数
def judge(x):
d=[]
d.append(sum(x[x.first_overdue_days>0].left_prin))
d.append(sum(x.first_overdue_days>=7))
d.append(sum(x.curr_overdue_days>=30))
d.append(x.shape[0])
return pd.Series(d,index=[['fpd','fpd7','dpd30','total'],['sum','sum','sum','sum']])
函数应用
df.groupby('分箱结果').apply(judge)