风控数据分析里面有两种方法(我自己划分的不知道对不对),就两类方法,我做了一个大致的总结,如下
1.规则:某个用户的某个行为,一天最多20次,一小时最多10次,类似这种。
优点:数据分析工作较为简单,短平快,在接口防刷,批量行为
等类场景性价比高
缺点:1)这种策略容易被试出来并绕过
2)往往为了解决精确率的问题而无法兼顾召回率
2.模型(数学/机器学习):
优点:分类效果往往更好,解决复杂场景更有优势
缺点:依赖大量的数据标注和较为复杂的数据分析工作,需要一定的数据分析基础,收益慢更新迭代不及前者。
个人认为,如果只会第一种方法,并不能很好的解决所有的尤其是复杂的数据分析问题。因为这种规则的局限性非常大(可以认为是把线性回归模型的系数矩阵置为0,只有常数项的数学模型,也就是模型的极端特例。既然是特例解决的问题肯定不是特别好)。最大的一个问题是,为了解决精准率的问题没法同时保证召回率,如下图的例子:
上图的黑色虚线是规则的效果,橙色实线是模型效果,我们可以看到,规则为了保证最上方的红色圆点不被误伤,阈值选择非常靠上,导致大量蓝色圆点无法被召回,也就是为了保证精准率牺牲了召回率。但是模型就好一些,因为它可以通过复杂的矩阵运算在二维甚至多维空间内分出出相对复杂的两部分。
当然两者也并不是泾渭分明的,比如大名鼎鼎的决策树模型其实就是一系列复杂的阈值规则组成的,随机森林模型又是由决策树模型投票产生的。
在处理相对复杂的数据分析问题时我更倾向于通过模型来解决,而相对简单快捷的阈值规则也有其一定的用武之地。