ETL报表小结
1.拿到需求时,弄清报表的统计周期,比如是日报,月报,还是年报等等;其次如果是hive开发,需要确认表是否需要分区。
2.确认报表上线日期,及时作出规划
3.看到需求时,别着急着立马就设计表结构,甚至立马就开始写代码,一定一定要和需求人员及时沟通,确认报表每个字段,每个指标或者维度等的技术口径;其次在弄清每个指标的逻辑之前别着急做其他事。个人觉得这个步骤甚至可以可以花较多的时间。同时这一步也应当明确了报表的维度,指标,后续不应该再有变动。尤其是维度一块
4.弄清报表的数据量,这点应该能估算出来,如果数据量太大,应当和下游的相关人员沟通,确保推送数据没有问题
5.弄清报表的业务口径,业务逻辑以及明确表应该有哪些字段时,就可以先创建表结构
6.对于报表中引用到的表,应当先探查下这些表,看这些数据长什么样,重点关注各个表之间关联条件,是left join 还是inner join;关联条件是不是id,如果不是,关联时应当注意什么
7.开始开发时,个人觉得如何设计是个重要的问题,比如第一步先做些什么,步骤一定要清晰。要保证即使某个指标需要改逻辑时不至于修改整个报表的设计结构,这一步完成了,开发报表只是个水到渠成的事,可以是说完成了一大半,接下来甚至都是体力活。
暂时先写这么多,以上是个人SQL开发报表的一点心得,针对的条件有限。欢迎交流