风控架构
需要解决用户是否是黑名单,是否是高质量用户,是否行为触发风控的角度;必须将实时模型和离线模型整合,这样才能做好一个模型
实时模型
离线模型
规则引擎
需要解决动态增加模型,实时加载模型;比如说超过一定金额进行风控;比如说特定设备风控;比如说特定直接进入支付页面的进行风控等等;其中就包含了复杂时间流(CEP)的处理过程,或者一个常见的黑名单的场景;都依赖一个健壮的规则引擎的模型;
模型格式
如果需要解决大规模下运行模型特点,需要将模型转换成和语言无关的文件,方便将python文件转换成Java文件;常见的文件模型有
PMML
PB(是MetaGraph的protocol buffer格式的文件,MetaGraph包括计算图,数据流,以及相关的变量和输入输出)
模型和数据的加载
- 对于数据的加载,开发者首先要对于数据质量和模型有个初始的认知;选用什么样的模型;该模型需要什么维度的数据;数据质量怎么样;需要对数据进行去重,填充等一系列数据初始加工的流程;
- 当模型训练,并在小范围验证之后,需要对于模型进行进一步的大规模的运用或者说进行下一步的验证;
- 大数据比较大时,需要考虑将模型跑在spark 集群上,当然也要验证模型是否支持Java或者spark的方式加载,实时或者先落库在进行下一步的加工
- 当数据比较大时,可以考虑将模型跑在flink集群上,利用flink以及flink CEP的特点,对数据进行进步的加工;实时输出模型
附件
)