匿名数据分析流程记录

目标范围

导出最近9个多月的数据,从岗位的维度导出招聘经理侧的统计数据;导出员工侧数据

需求分析

  • 招聘经理侧数据发生变化,维度从人、次的维度,变成了岗位、次的维度。以前没有处理过,对岗位相关信息又不熟
  • 导出员工侧数据去掉了开始截止,只有一个截止时间。比较简单

流程

在认真分析完需求后,没有想到好的方法去突破,一直在想流程化、办自动化,花了将近一个晚上的时间。第二天,还是直接用原始的导数据、持久化、清理数据、分析数据的方式去处理,导了完整的聊天数据、回话岗位、匿名信息,准备从聊天消息入手去处理数据,而不是从sqlserver的几张表,因为发现了消息和sqlserver表的数据量不一致。花了两天时间处理完岗位维度的招聘经理侧统计数据,花了很多时间导出数据、导入数据。花了一个早上导出了员工侧数据(用的现成的sql),然后持久化到本地,分析,导出,也是花了很多时间在导出数据、导入数据的环节。

问题

  • 突破点没找好。还是从流程化、半自动化的方向去突破,结果没找到突破点。这时应该想想其他突破点,已经是准备弄一个本地分析系统了,就应该想到从“如何设计数据分析”平台方面突破。
  • 数据分析系统技术选型有问题,开发效率比较低,目前是java+spring boot + mysql + mybatis。这组技术的好处在数据分析时,并没有体现出来,尤其是面向对象和excel导出,数据分析时的代码也太厚
  • 流程化、半自动化的目标要精细,特别是手动处理的部分,要进一步缩小范围
  • 对于员工侧数据的excel导入,没有用好索引,导致列不对,花了时间去处理

值得肯定的地方

  • 借助以往数据分析的经验,对于处理较大数据时,返工成本比较高,所以花了较多的时间去分析和设计流程,这省了部分时间。
  • 流程化、办自动化,让整个处理过程有条不紊
  • 突破了以往经验,手动导出了各种数据
  • excel导入、导出的代码准确性更高了

总结

  • 流程化、办自动化,的确提高了效率,是指不出错,方便探索分析
  • 当准备做成一个系统时,也可以从系统设计、架构设计方面去提效

改进

  • 加后门非敏感数据下载接口,聊天消息、匿名信息、回话岗位,全量下载非敏感数据,限制只有领导和我能访问
  • 尝试切换到pgsql+python的技术栈,java那套做数据分析有点慢,面向对象对数据分析完全没用
  • 可以弄个定时任务, 离线计算出所有的邀约、感兴趣、咨询、回复数据,然后方便从不同角度去聚合分析

实施计划

  • 新增数据接口后门、常见数据分析实现
  • python处理excel,与pgsql交互
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容