今天稍微聊一下工作吧~
企业数字化的基础是IT信息化,健全的业务系统为数据统计分析提供了基础数据。然而实际情况是经常需要整合不同来源数据。
最近所做的数据需求数据来源杂乱,很多数据是线下手工收集。面对多来源的数据如何做到彼此关联呢?我们需要找到相同的纬度,将不同来源的数据处理到粒度一致。
常见的串联纬度:
①时间信息,比如同一天的访问量和下单量可以放在一起分析;
②地理信息,比如同一国家、同一省份城市的数据可以放在一起分析。
③身份信息,最为理想的还是带有身份标识信息的数据,比如身份证号、手机号、车牌号、邮箱等,这些是最能准确地将不同行为数据串联的有效依据。
确定好串联依据后,需要将数据处理成相同粒度,然后再合并所有信息。
这个原则知易行难,最近在做需求时,没有考虑清楚不同数据来源之间的关系,造成了返工的现象。
治愈系的花朵