大数据反欺诈技术架构

一年多以前,有朋友让我聊一下你们的大数据反欺诈架构是怎么实现的,以及我们途中踩了哪些坑,怎么做到从30min延迟优化到1s内完成实时反欺诈。当时呢第一是觉得不合适,第二也是觉得场景比较局限没什么分享的必要性。

时间也过了很久了,最近看到圈里一些东西,发现当时的这套架构并未落伍,依然具有很大的参考价值,所以今天跟大伙聊聊关于大数据反欺诈体系怎么搭建,主要来源是来自于我工作的时候的实践,以及跟行业里的很多大佬交流的实践,算是集小成的一个比较好的实践。

这套架构我做的时候主要领域是信贷行业的大数据反欺诈,后来也看过电商的架构,也看过金融大数据的架构,发现其实大家使用的其实也差不多是这个套路,只是在各个环节都有不同的细节。

大佬说的,能用图的,尽量不要打字,那我就打少点字,多做点图。其实大数据不外乎这么几个步骤。数据源开拓、数据抽取、数据存储、数据清洗和处理、数据应用,且听我一个一个说。

数据源

数据源是一个比较重要的点,毕竟如果连数据源都是垃圾,那么毫无疑问可以预见,最终产出的一定是垃圾,所以挑选数据源和对接数据源的时候都要关注,该机构产出的数据是不是都是质量比较高的数据。

比如人行征信数据就是一个质量非常非常高的数据,主要涉及信用卡、银行流水、老赖、失信、强制执行信息等,都非常核心,任何一个点都可能是一笔坏账的苗头。以及各种行政机构提供的付费机密数据。

比如运营商通讯数据、比如大型电商的行为数据、比如各种保险数据,以及各个机构贷款记录的互相沟通,这些数据源,都非常核心也都非常值钱,是现在反欺诈非常核心的数据。

当然也有更加粗暴更加高效的做法,就是直接购买外部的黑名单数据,这让反欺诈变得更加简单,遇到就直接拒,可以减少非常的人力物力成本去做其他的核查。

数据抽取

有了高质量的数据源后,当然就是怎么抽取的问题了,各个机构所提供的数据格式是多种多样的,其中包括 http 接口的json、xml,内部其他数据源的 etl、定时人工上报的 Excel,以及 sqoop+ozzie 这两个直接数据抽取通道,这个过程只需要保证通道稳定,数据服务幂等即可,没什么特殊的地方。

数据存储

数据存储其实就是建立一个数据仓库和一个实时仓库,数据仓库用于存储来自各大数据源的原始数据,实时仓库用于业务系统的核心作业,数据仓库的数据量一般都以 T 为单位,实时仓库以 M 和 G 为单位。

离线计算&实时计算

数据保证了,那么计算就是这套架构的核心之处,从大的角度来看可以分成离线计算和实时计算。

离线计算主要会做两件事情。Hive 、Spark 数据整合与清洗和离线数据建模。Hive 数据整合主要做的事情就是把各个数据库里面的东西,进行清洗和过滤,最终写到我们定义的标准表里边,提供给下游的计算使用。如果是非常复杂的数据清洗,我们会使用 Spark 写程序来做,毕竟有一些操作不是 Hive 这种标准 SQL 能解决的。离线数据建模,就是对于这批数据进行建模,以便后续用于实时计算和应用中,算法嘛,精通两个基本就稳了,LogisticRegression & 决策树,不要问我为什么。

实时计算又会做些什么事情?SparkStreaming和Flink用于实时流计算,主要是用于一些统计类的事情,以及多个数据流的 join 操作。在这里我们希望做到什么事情呢?就是希望服务可以准实时,什么叫准实时呢?就是在一个可以接受的范围内,我允许你有一定的延迟,这块我们一开始的任务延迟是 30 min。

我们踩过哪些坑呢?

一开始我们希望使用流批次计算来实现实时计算,实践下来准实时跟实时还是区别很大的,一个业务通常是允许不了分钟级别的延迟的,然而 Spark 的 GraphX 必然有分钟级别的延迟,只适合离线计算。

Hive + Ozzie 处理离线批量处理是一个非常大的利器,很多人都以为Hive数据清洗不就写写几行 SQL?几百张乃至几千张表背后的复杂的数据清洗规则,任务依赖,任务重跑,数据质量,数据血缘关系维护。相信我,要是没有细心和工具,这些能把你搞崩溃。

ElasticSearch 集群多个机器的负载吞吐量,比单台机器高性能的要高,毕竟网络卡在那。

我们趟了很多的坑,摸了很多的时候,最终决定把所有的实时操作都架构在 ElasticSearch 和 Neo4j 上,因为我们不仅仅需要实时的全文本全字段社交关系生成,更是需要实时搜索多维度多层社交关系并反欺诈分析,而这个关系可能是百万级别的,根据六度理论,决定了我们选取的层次不能太多,所以最终我们只抽取其中三层社交关系。最终确定这个架构,这很核心地确定了我们的响应时间,并最终决定了我们服务的可用性。

很多地方产生的结果数据只是整个决策链上的一个细节,所以我们还需要 Drools 这类规则引擎帮助做一个最终决策。

业务应用

最终业务系统应该怎么使用,怎么对外提供服务?这也是一个非常核心的问题,因为这部分要求非常非常稳定,以及非常非常高效,一般来说不允许有太高的延迟,同时还要求非常高的并发量。这就要求了我们第一要尽量提高计算效率,第二要求我们对于系统的架构要有非常高的保障。

计算效率要高效,有什么技巧呢,保证各个系统之间的交互都是聚合、加工、计算后的结果,而不是原始数据,毕竟网络传输是需要很高成本的在目标数据量非常大的场景下。比如一次性要加载几十万条数据,那全部拉回来再重新计算是不是就显得很蠢了?为什么不在目标系统里以数据服务的形式提供呢?

技术架构保障,其实大部分都是基础架构的事情了,比如动态负载均衡、一主多从、异地多机房容灾、断网演练、上游服务故障预案等等。

建模之社交网络

很久以前就已经介绍了各种社区发现算法,这里就不再赘述,有兴趣的自己点进去细致了解一下。

这里聊聊一个知识图谱的标准建立过程。

1、主体确认

2、关系建立。

3、逻辑推理建立。

4、图谱检索

主体确认,从图的角度来看就是确认各个顶点,这些顶点有自己的属性,代表着网络里的一个个个体。

关系建立,从其他资料关系得来,也可以根据第三步的逻辑推理得来,从图的角度来看就是确认各个边,这些边有起点有终点也有自己的属性,代表着网络里各个个体的关联。

逻辑推理建立,这是非常重要的一个部分,比如姚明的老婆的母亲,就是姚明的岳母,这种先验知识的推理可以在图谱的帮助下,为我们解决很多的实际问题。

图谱检索,有了图谱我们就开始使用,我们有四件套,主体属性搜索,关系属性搜索,广度优先搜索,宽度优先搜索。我们一般的使用策略都是,优先确定一个顶点比如目标人物,然后向外扩散,直到找到所有符合条件的个体。

这里我们踩了什么坑做了什么优化呢?我们一开始是把整个搜索结果拉到本地再进行计算,而图谱搜索后的结果总是很大,毕竟我们找了很多维的关系,所以总是卡在网络这块。经过探索和咨询,最终确认了 Neo4j 这种图数据库不仅仅提供数据查询服务,还做了基于定制化的社交网络分析的插件化开发,把我们的反欺诈服务以插件化的形式部署到服务器中,这就减少了非常多的网络开销,保障了我们服务的秒级响应。

完整架构图

从数据来源、获取、存储、加工、应用,一步到位,万一有点帮助那就更好了,如果还心存疑虑,这篇文章从下往上,再看一遍。

欢迎学Java和大数据的朋友们加入java架构交流: 855835163

群内提供免费的Java架构学习资料(里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料)合理利用自己每一分每一秒的时间来学习提升自己,不要再用"没有时间“来掩饰自己思想上的懒惰!趁年轻,使劲拼,给未来的自己一个交代!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • 大数据技术框架 1. 简介 2. Hadoop框架2.1. Hadoop-MapReduce2.1.1. 简介:2...
    sunTengSt阅读 12,016评论 1 78
  • 云安全联盟大数据工作组发布 译者:李毅 中国惠普大学资深培训专家 ** 摘要 **在本文中,我们提出了一个大数据...
    Leo_Liyi阅读 6,268评论 0 22
  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,263评论 0 34
  • 挖财基于大数据的信贷审批系统实践 http://mp.weixin.qq.com/s?__biz=MzA5Nzk...
    葡萄喃喃呓语阅读 2,484评论 1 21
  • 你想看看风的足迹 你变寻根问底 你窥探它到达的山地 听见谷底声音响起 最后发现 风不过在你心里 那荆棘丛林 我小心...
    七笙阅读 207评论 0 1