果然还是要交流,然后不断的深入思考,纠结的时候,不断的问自己什么最重要,什么更重要
01 交流中收获的
- 数据测试过程中需要关注的一些点: talk with my colleague(单丽媛)
(1)所用到表的数据量测试(如需要一个月数据,确保表的数据范围是否满足)
(2)记录是否唯一(如用户id,各种绑定关系)
(3)空字符串是否替换为null值(如限定条件是不为空,空字符串是不是也需要过滤)
(4)必填项是否有null值(如时间有空值等)
(5)数据的边界是否正确(如年龄大于120之类不符合常识)
(6)数据的逻辑转换是否正确
(7)数据的限制条件是否正确
(8)数据间的业务逻辑关系是否成立
(9)如果有日、周月数据需要互相对比
- 关于数据同步模块: communicate with my colleague (james)
MySQL是通过公司的那个同步到kafka,oracle是通过ogg到kafka, 最后再通过我们写的spark同步到kudu,补充:MySQL是通过网易的那个同步到kafka(网易的工具好像是:tuston)
补充: 需要扩充关于kafka的知识,OGG的知识,Spark的知识等,核心kafka。
突然想到的: 上次面试的时候,被问到关于数据同步JAR包是如何实现的?当时回答是jdbc,受到了面试官的质疑,关于这块还要请教山哥,关于War包的规则。
- 关于数据同步模块: communicate with my colleague(郑国亚)
用到的工具: kafka,hadoop,spark,ogg and 流
重点: 上次看社区的文章,不止一次被提及到,搞数仓的同学,要及时切换并了解kafka,看起来我要花时间,好好地理解下这个工具了。
02 工作中需要熟悉的
ES,OWL,KIBANA,REDIS,Mongo,首先是这些东西的名词的解释,其实是关于这些工具的作用,再次是尽快的上手这些工具的使用。
关于正则表达式: 其实平时工作中,或多或少会接触到正则,但是由于使用的场景少,正则的规则比较的繁琐,所以不愿意花时间去学习,现在看起来,这个工具了解了,可以节省非常多的时间
03 多问多思考多实践
工作中,时不时地问自己什么更重要,什么最重要,就知道了。想办法获得成长,才是最关键的,什么面子,什么里子,什么其他的,都是小事。
问题一:
这段描述为什么不正确?或者说不严谨
问题二:
关于平台上JAR包,通过哪些方式实现了,解析HQL,然后把数据写入到关系型数据库的。Spark来实现的,scala语言,国亚表示代码难度不大,具体还需要自己来研究。