永远要记得一件事:我们不是数据的创造者,用户和业务才是。
1.数据同步和交换
数据同步的方法可以分为:
·API同步
·文件传输
·协议传输
API同步是指准备一个约定好的接口,使用数据的一方直接调取这个API读取自己需要的内容。数据中台对外输出数据通常使用这种形态,因为每个开发好的接口都可以被高度复用。
文件传输是指把数据源变成一个文本文档,上传到一个服务器,由需要这些数据的服务器去读取。或者在目标服务器上建一张相同结构的表,把源数据里的内容直接写入新表。
协议传输是指提前约定一个判断规则,对数据源系统的日志进行监控,击中判断规则时进行数据传输。这种方式主要用于数据源出现变更时更新接入的数据。
2.增量同步和全量同步
增量同步是指只同步新增的数据。用于历史数据不会发生改变的场景。比如日志类的数据,通常都使用增量同步。
全量同步会带来冗余的存储和一系列的性能问题。这时会采取一种中间的方式,叫作“只同步新增记录和有更新的记录”,这种方式可以理解为将两天的全量日志进行合并、排重,删除完全相同的记录。全量同步会带来冗余的存储和一系列的性能问题。这时会采取一种中间的方式,叫作“只同步新增记录和有更新的记录”,这种方式可以理解为将两天的全量日志进行合并、排重,删除完全相同的记录。
3.离线同步和实时同步
在绝大多数场景下,使用的都是离线同步方式。例如T+1的离线同步就是在当天凌晨同步前一个日期的全部数据。