我是来自于XX部的XX,有XX年从业经验,目前在XXX任XXX职位,当前岗位职责为 ①、通过流程、制度、规范和工具来维持数据传输、共享、应用的秩序;②、从时效性、准确性及易用性等方面综合评估,构建场景化数据服务体系。
当前职级是XX,在岗XX年,现申请晋升XX。
在岗期间的核心成果,主要表现在两大领域的三个方面。
特征领域的个人特征方面:
一是重构了人行特征的数据加工链路,人行特征的准确率提升至XX%,衍生效率提升了XX倍。
二是优化了特征生产的流程,特征生产耗时由需XX下将至仅需XX。
特征领域的企业特征方面:
从0到1引入了企业数据加工平台,在一年内,将企业域的特征数量由XX个提升至XXXX个。
资源治理领域,主动承担资源治理工作,构建资源治理的体系,搭建虚拟组织,推动XX个大类XXX个小项的工作落地。XXX年,存储资源压降了XXPB,转化成金额,约节省了XXX万元。
下面我将就核心成果展开叙述,作为能力自评的佐证。
个人特征:
一、在特征投产效率提升上,一开始接触的时候,就觉得比较诡异,在特征已经开发验证完的情况下,配置上线竟然还需要一周多。深入了解后,发现特征配置上线的操作非常技术,需要相关人员了解json技术术语,相关配置参数约有XX个。
从产品的角度来讲,直接将技术过程不经组织的直接暴露给用户确实不是一个好的设计。特征上线,本质上就是将一个服务的出入参进行映射,映射后的出参即是变量。基于此,我重新梳理了下特征需求模板,将出入参的定义在需求提出的时候就确定好,入参需要在现有特征池里存在,出参不能在现有特征池里存在。提出方基于这些简单的判断就可以准确填写。然后协同海纳的产研进行服务声明的升级,风控系统这边根据服务的声明,进行变量一键同步注册,点个按钮就能够完成特征的配置上线。功能上线后,特征开发团队在开发完后,会顺便完成特征的配置工作。不再需要特征配置及测试团队的介入,释放了XX资源。
在人行特征衍生上,历史使用的是JAVA语言进行人行特征开发,每提一批变量均需要JAVA团队的排期,整体开发时间很长,XX年到XX年N年时间,在线服役的人行特征仅XX个。XX年初开始ALL IN SQL,SQL的开发效率和验证难度均要优于。但在一开始落地的SQL版方案里,忽略了数据同步与数据加工的顺序性,导致人行报文过大时,计算的准确率就出现了问题。XX年初分析时,发现了特征计算准确率的问题;后续在SQL版的数据链路上进行了修复。方案升级后特征的准确率达到了XX%。
企业特征:
企业数据具有“多,厚,脏”的特性。老的企业数据加工链路非常不稳定,以银税数据加工链路为例,特征加工全过程分散在三个系统里,三个系统的管理规则是独立的,没办法做统筹。同时特征加工环节控制不了取什么数据,只能推什么数据就用什么数据。经常出问题的都是数据拉取那个环节,第一种情况,没推数据就来调特征加工结果,第二种情况,同一厂商或者不同厂商的数据重复推送,加工使用的数据就乱了,计算结果就出现了偏差。
基于以上现状,引入了企业域数据加工平台,这个平台在设计上将数据拉取的主动权掌握到了自己手上,风控仅需调用想使用的特征,企业域准入校验通过后,就会去获取数据,清洗数据,构建标准表,加工特征,返回给风控。因为做了数据分层的设计,基于标准层的数据分析及特征衍生的效率也极大的提升了。
特征管理的规划上:
目前特征的数据加工链路已基本稳定。将进入特征资产运营管理阶段。XXX年底盘点过一次在线特征,目前特征数量只增不减,整体有XX个的特征。目前哪些特征价值高,哪些特征加工慢,哪些特征要下线均是处于一个混沌状态。今年我做了特征资产管理的规划,在特征资产的属性上,主要会收集特征基础属性、特征应用约束等X个方面的XX个资产属性。对存量特征资产属性进行盘点,新增特征资产时需要补充。
探索对特征数据资产的运营,主要分为六个环节,从挖掘到生产到应用到监控到评价迭代到下线。每一个环节均有其相对应的规范,与信管就规范拉齐后,推动工具落地,进行过程管理。
营销标签:
标签加工最大的问题,一个是标签延迟,一个是标签数据存在不一致性。其核心问题是技术架构设计不合理,数据会在多种组件间建。同时缺少必要的监控预警手段。
在历史建设过程,是基于满足业务需求为主,整体的建设是搭积木式的,缺少顶层设计。当前阶段适宜进行技术架构重构。
资源治理:
资源治理缘起于大家总问为什么跑数这么慢?一开始做了调研,发现大家普遍用的表和逻辑均没有那么复杂,怀疑是资源问题导致的,之后联合我们集群管理的工程师,进行了资源使用埋点采集发现集群绝大部分时段的资源占用都在XX以上。
我这边主动承担了资源治理的工作,开始着手梳理。首先就是了解资源使用的原理,资源分为存储和计算,存储是表在占用,计算是任务在占用。治理的重点就在表和任务。调研了目前表及任务使用的现状,涉及到的平台,其建设均有一个共同点,建设的过于技术而缺乏管理。基于已经既成事实的现状,无法拿一个成熟的管理体系照搬。故建议通过专项治理积攒经验,形成规范,然后再促进工具升级迭代,最终进入常态化运营的阶段。
资源治理工作开展需要资源支持,提报审批通过了资源治理专项项目,正式以虚拟组织的方式推进资源治理相关事项。
由于是虚拟组织,大家或多或少有些抵触情绪。为了拉齐共识,邀请了行业专家给大家培训,会后有人问我,数据领域需要这么多规范呀,我就知道这次培训的效果还是很明显的。确实第三方权威对于虚拟组织拉齐共识来讲作用巨大。
XXX年资源治理除了节省XX万元外,其他方面均有显著成果,尤其在能力建设的长治久安上,我们上线了任务分类审批、脚本规范化检测工具等多项功能。
XXX年大数据部同样部署了相关的治理专项,至此治理的体系和思路得以延续,今年我作为咨询顾问参与各个治理项目。
期望XXX年可以启动自动化治理的建设。