2018-08-03 每日工作所学所思

果然还是要交流,然后不断的深入思考,纠结的时候,不断的问自己什么最重要,什么更重要

01 交流中收获的
  • 数据测试过程中需要关注的一些点: talk with my colleague(单丽媛)
(1)所用到表的数据量测试(如需要一个月数据,确保表的数据范围是否满足)
(2)记录是否唯一(如用户id,各种绑定关系)
(3)空字符串是否替换为null值(如限定条件是不为空,空字符串是不是也需要过滤)
(4)必填项是否有null值(如时间有空值等)
(5)数据的边界是否正确(如年龄大于120之类不符合常识)
(6)数据的逻辑转换是否正确
(7)数据的限制条件是否正确
(8)数据间的业务逻辑关系是否成立
(9)如果有日、周月数据需要互相对比

  • 关于数据同步模块: communicate with my colleague (james)

MySQL是通过公司的那个同步到kafka,oracle是通过ogg到kafka, 最后再通过我们写的spark同步到kudu,补充:MySQL是通过网易的那个同步到kafka(网易的工具好像是:tuston)

补充: 需要扩充关于kafka的知识,OGG的知识,Spark的知识等,核心kafka。

突然想到的: 上次面试的时候,被问到关于数据同步JAR包是如何实现的?当时回答是jdbc,受到了面试官的质疑,关于这块还要请教山哥,关于War包的规则。


  • 关于数据同步模块: communicate with my colleague(郑国亚)

用到的工具: kafka,hadoop,spark,ogg and 流

重点: 上次看社区的文章,不止一次被提及到,搞数仓的同学,要及时切换并了解kafka,看起来我要花时间,好好地理解下这个工具了。

02 工作中需要熟悉的

ES,OWL,KIBANA,REDIS,Mongo,首先是这些东西的名词的解释,其实是关于这些工具的作用,再次是尽快的上手这些工具的使用。

关于正则表达式: 其实平时工作中,或多或少会接触到正则,但是由于使用的场景少,正则的规则比较的繁琐,所以不愿意花时间去学习,现在看起来,这个工具了解了,可以节省非常多的时间

03 多问多思考多实践

工作中,时不时地问自己什么更重要,什么最重要,就知道了。想办法获得成长,才是最关键的,什么面子,什么里子,什么其他的,都是小事。

问题一:

这段描述为什么不正确?或者说不严谨

问题二:
关于平台上JAR包,通过哪些方式实现了,解析HQL,然后把数据写入到关系型数据库的。Spark来实现的,scala语言,国亚表示代码难度不大,具体还需要自己来研究。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容