写给数据产品经理新人的工作笔记|09 必须了解的数据技术基础知识 S2

永远要记得一件事:我们不是数据的创造者,用户和业务才是。

1.数据同步和交换

数据同步的方法可以分为:

·API同步

·文件传输

·协议传输

API同步是指准备一个约定好的接口,使用数据的一方直接调取这个API读取自己需要的内容。数据中台对外输出数据通常使用这种形态,因为每个开发好的接口都可以被高度复用。

文件传输是指把数据源变成一个文本文档,上传到一个服务器,由需要这些数据的服务器去读取。或者在目标服务器上建一张相同结构的表,把源数据里的内容直接写入新表。

协议传输是指提前约定一个判断规则,对数据源系统的日志进行监控,击中判断规则时进行数据传输。这种方式主要用于数据源出现变更时更新接入的数据。

2.增量同步和全量同步

增量同步是指只同步新增的数据。用于历史数据不会发生改变的场景。比如日志类的数据,通常都使用增量同步。

全量同步会带来冗余的存储和一系列的性能问题。这时会采取一种中间的方式,叫作“只同步新增记录和有更新的记录”,这种方式可以理解为将两天的全量日志进行合并、排重,删除完全相同的记录。全量同步会带来冗余的存储和一系列的性能问题。这时会采取一种中间的方式,叫作“只同步新增记录和有更新的记录”,这种方式可以理解为将两天的全量日志进行合并、排重,删除完全相同的记录。

3.离线同步和实时同步

在绝大多数场景下,使用的都是离线同步方式。例如T+1的离线同步就是在当天凌晨同步前一个日期的全部数据。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容