后端产品经理笔记-数据传输和写入

前言

在后端数据量大起来之后,大部分的工作都是在‘玩数据’。就像一捧沙子,左手换到右手,右手指缝间分流而出,再由另一双手接住。

所以作为产品经理,不仅要知道数据从哪来,还要理清楚获取数据之后的运算逻辑、异常规则,以及异常情况、数据日志等等。

本文继数据库之后,梳理了数据交互笔记。有兴趣的朋友可以一起交流。

一、跨服务器数据传输

1、公司的后端数据之所以存在不同的数据库上,本质是为了解耦数据,提高单个数据库的运算速度。多个子系统之间的交互,其本质就是数据传输。

数据传输方式:MQ(队列)、http接口、otter、爬取、导入。

2、MQ适用于公司内部,数据量大,规律性强,批量往来的数据。一般的配置是一方推出增量数据,另一方被动消费,像排队进厕所一样,不用设定频率。

3、http接口是最常用的。叫 interface,也有的叫 protocol

如果数据源是一缸水,那么接口就像是凿了一个口。所以接口必须是在数据源这边,由数据方定义接口。

接口规则就像过滤器一样,设定推送前的筛选、转化等运算规则。这就是接口的核心内容。

接口交互数据可以是主动推送,也可以是请求获取。

主动推送一般是数据生产方一旦更新,则触发推送,将所需字段对应值传递过去。

请求获取就是数据需求方传递请求参数(请求参数一般是一个条件,比如时间)。数据生产方则按照协议响应,给出满足条件的数据到请求方(也就是返回参数)。

4、接口定义是开发的事情,但产品需要确定出范围:

接口定义的规则是什么、传参和返回参数是什么、重复传参时是跳过还是再次获取(一般都再获取),必传参数是什么,是否回传接收结果给数据生产方。

比如下图:每小时/次取对方表中第一页最新的50条数据。超过的数据下个小时继续取。

5、确保接口获取的数据及时。

除了生产数据需要及时向下游推送之外,还有基础数据的更新也需要及时给下游同步,有时要做到同时。

方法是两种:触发式和定时脚本。

触发式就是一旦一个参数值满足条件则触发。

脚本式一般用在请求获取数据的时候。因为不知道数据源什么时候更新,所以一般用定时脚本执行请求任务。

请求的频率需要与更新的频率相协调。比如:每次取6小时内更新的数据。每2小时取一次,则不会有问题。但是若每天取一次  就会有漏掉。也就是取数据的频率要高于更新频率。

6、数据量大的时候,可以用otter:

方案1:直接请求对方的接口:数据多的时候 请求就多,会占资源

方案2:为保证数据本身及时,OTTER是最好的,也就是库对库的传输(一般一个公司的才这样)。

otter 方法:①、数据全在一个表中。②本地库建一个相同的表。

7、爬取数据

一些第三方公司为了保密,会把文件存在网盘或网页上,比如第三方支付公司与协议公司约定好账号密码,登录到SFTP筛选出需要的数据然后解析后保持到本地。这也实现了一个服务器之间的转移。

8、导入:数据量大的,且有规则数据也可以通过导入的方式。

文档一般用csv格式,文件较小,兼容性好。然后需要定义好excel表格对应字段的关系即可。

上传时需要对文件检验,建议方案是一旦一处错误,就全部不予导入。

9、爬取第三方数据的防止丢包机制

案例:到SFTP服务器抓取并解析字段,写入数据表。

方案:

①断抓补抓:比如: 4号抓修改时间为3号的数据。5号断抓,则6号抓取4、5号的数据。7号抓取6号的数据。

②抓空补抓:网关的 每次抓取若抓空(获取的数据是0个)则下次继续抓。直到三次都未取到。则不再补救。

二、数据写入

1、先落地到中间表

如果获取后还要再本地进行规则运算,则最好先落地到中间表,再由中间表写入最终表。

比如从A系统获取的数据取到B系统,要进行分摊后再写入表。那么最好先落地到B系统的中间表,然后再由中间表写入目标表。

好处是,正向数据:可以异步处理,A——>中间表——>最终表,互相不影响。逆向数据:一旦数据异常,则方便追溯原因。

2、去重规则:设置去重规则,以便再重复获取数据时更新、插入或者跳过。

注意去重规则一旦改变,则需要考虑到历史数据对新数据的影响,因为二者的判重维度不一样,可能会有交叉。

3、数据日志:目的是记录数据的来龙去脉,追溯以分析bug

产品经理告诉开发加日志,开发就会再后台加,因为log4j开源代码定义了5个主要级别的log:FATAL、ERROR、WARN、INFO、DEBUG,一般可以配置INFO或DEBUG级别的日志。

如果需要保留的时间长,则可以将其保存到本地。

本地的需求可以展示给用户看。比如可以从以下维度展示:

4、单进程锁

脚本执行的频率的时候,为保证数据是按单进程执行,不交叠,就要设置单进程锁。比如一小时一次,8点没执行完 9点就不要执行。

另外在跑数据的规则上面,不要设置8点跑更新时间7点的,一旦小故障,就容易漏取。正确的要么是更新时间为当前之前更久的,要么就以状态来限定, 比如取is_use为否的。

5、同步基础数据的时候 是否提前过滤

比如A系统维护了用户基础信息(其中有个状态为是否启用),B系统取用,但不做数据维护,只有启用状态的能用,那么是否只取启用状态的到B,还是两种状态都取。

答案是:在数据量差异不大的情况下,取全量。

原因之一:若启用状态的用户忽然被A系统禁用,那么可能该用户在B系统的生产数据报错,这时候到中间表看状态就可以看出来问题,而不需跨系统或跨部门沟通查证。

(待续)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容