2018-08-03 每日工作所学所思

果然还是要交流，然后不断的深入思考，纠结的时候，不断的问自己什么最重要，什么更重要

01 交流中收获的

数据测试过程中需要关注的一些点： talk with my colleague（单丽媛）

（1）所用到表的数据量测试（如需要一个月数据，确保表的数据范围是否满足）
（2）记录是否唯一(如用户id,各种绑定关系)
（3）空字符串是否替换为null值（如限定条件是不为空，空字符串是不是也需要过滤）
（4）必填项是否有null值（如时间有空值等）
（5）数据的边界是否正确（如年龄大于120之类不符合常识）
（6）数据的逻辑转换是否正确
（7）数据的限制条件是否正确
（8）数据间的业务逻辑关系是否成立
（9）如果有日、周月数据需要互相对比

关于数据同步模块: communicate with my colleague （james）

MySQL是通过公司的那个同步到kafka，oracle是通过ogg到kafka，最后再通过我们写的spark同步到kudu，补充：MySQL是通过网易的那个同步到kafka（网易的工具好像是：tuston）

补充: 需要扩充关于kafka的知识，OGG的知识，Spark的知识等，核心kafka。

突然想到的： 上次面试的时候，被问到关于数据同步JAR包是如何实现的？当时回答是jdbc，受到了面试官的质疑，关于这块还要请教山哥，关于War包的规则。

关于数据同步模块: communicate with my colleague(郑国亚)

用到的工具: kafka，hadoop，spark，ogg and 流

重点: 上次看社区的文章，不止一次被提及到，搞数仓的同学，要及时切换并了解kafka，看起来我要花时间，好好地理解下这个工具了。

02 工作中需要熟悉的

ES,OWL,KIBANA，REDIS，Mongo，首先是这些东西的名词的解释，其实是关于这些工具的作用，再次是尽快的上手这些工具的使用。

关于正则表达式：其实平时工作中，或多或少会接触到正则，但是由于使用的场景少，正则的规则比较的繁琐，所以不愿意花时间去学习，现在看起来，这个工具了解了，可以节省非常多的时间

03 多问多思考多实践

工作中，时不时地问自己什么更重要，什么最重要，就知道了。想办法获得成长，才是最关键的，什么面子，什么里子，什么其他的，都是小事。

问题一：

这段描述为什么不正确？或者说不严谨

问题二：
关于平台上JAR包，通过哪些方式实现了，解析HQL，然后把数据写入到关系型数据库的。Spark来实现的，scala语言，国亚表示代码难度不大，具体还需要自己来研究。

最后编辑于：2018.08.03 14:16:30

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2018-08-03 每日工作所学所思