搞过机器学习的小伙伴们,有没有注意到,网上的机器学习二分类案例,比如预测违约情况、生还情况等,往往把响应的label标为1,不响应的label标为-1或者0,但是却没有告诉为什么这么标记?
下面,我尝试用scikit-learn机器学习包,为大家讲解一下,为什么二分类问题的label=[0,1]或者label=[-1,1](其中响应的label都标为1)。
此处暂时省略为什么,后续会贴代码出来
记住以下几点:
- 正常情况下,一旦目标响应,就把label标为1,不响应的标为-1或者0,也就是label=[0,1]或者label=[-1,1]。
- 如果实在想把不响应的label标为1,记住:计算的precision是一样的,但是auc得分与正常标注的auc得分,相加起来等于1。比如,响应的label标为1的时候,计算出来的auc=0.8,那么响应的label标为-1的时候,计算出的auc=1-0.8=0.2。
- 为了方便,不搞错,牢记第1点,响应的label就标为1,不响应的label就标为-1或者0。