记录一次线上迁库后对ES的数据全量同步

环境

公司系统是为多个餐饮集团服务,目前多个餐饮集团的数据量扩增,所以需要将几个数量量大的集团单独拆开。目前的业务为报表数据查询ES,mysql已应付不了报表的性能要求。ES里的数据务必要保证与mysql一致(目前增量同步ES基于canal实现)。本次拆库由运维负责mysql按集团拆库,开发方负责ES的全量同步。

方案

  • 使用DataX针对某个集团,复制数据到新mysql库中,同时调整zk动态数据源,新集团的请求路由到新库(集团ID始终是系统每个接口必有属性)。

  • 检查新库数据是否与老库一致,由于存在路由关系,老库数据可以保留。

  • 检查集团数据是否可以路由到新集团上。

  • 创建集团的新ES索引,预先设置好index的模板。

  • 使用 go-mysql-elasticsearch全量同步mysql数据,检查ES数据与mysql数据是否一致。

  • 开启canal的增量同步监听binlog。

  • 建立ES别名与索引的映射关系。

  • 测试报表功能数据是否正确,并且是双份。

  • 删除原index内对应集团的数据

go-mysql-elasticsearch

go-mysql-elasticsearch也是一款解析binlog到es的go语言开发的插件工具:github地址

官方的使用注意事项:

  • binlog format must be row.
  • binlog row image must be full for MySQL, you may lost some field data if you update PK data in MySQL with minimal or noblob binlog row image. MariaDB only supports full row image.
  • Can not alter table format at runtime.
  • MySQL table which will be synced should have a PK(primary key), multi columns PK is allowed now, e,g, if the PKs is (a, b), we will use "a:b" as the key. The PK data will be used as "id" in Elasticsearch. And you can also config the id's constituent part with other column.
  • You should create the associated mappings in Elasticsearch first, I don't think using the default mapping is a wise decision, you must know how to search accurately.
  • mysqldump must exist in the same node with go-mysql-elasticsearch, if not, go-mysql-elasticsearch will try to sync binlog only.
  • Don't change too many rows at same time in one SQL.
    不仅支持全量同步,还支持少量的增量同步。
    基于binlog实现,需要开启mysql的binlog,并设置为行级。
    支持多库多表同时进行同步,需配置好对应的数据源信息、索引与表的映射关系。

开始

2018-05-24 23:30
运维通知mysql数据导入完毕。开始检查源库与新库的数据,比较顺利,数据一致。

2018-05-25 00:25
测试集团是否路由到新库中,添加订货单,检查新库是否存在新增的数据,测试通过。

2018-05-25 00:40
PUT新索引,开启全量同步插件同步到ES。数据量比较多,这个过程比较缓慢,一边同步一边检查是否有数据遗漏。不过还真有个表的数据少同步了2条。删除了整个索引,重新建索引,配置go-mysql-elasticsearch针对此表进行全量同步。需要注意的是,go-mysql-elasticsearch每次会记录mysql的binlog的位置,重新同步后,需要把位置清零,才能全量同步。

2018-05-25 01:55
待命的canal增量同步软件登场,同时建立好别名与索引的映射关系。
中间也出现了个小插曲,index的模板的一个字段的类型设置错误了,canal增量同步报错。删除索引重新全量同步。

2018-05-25 02:15
测试报表功能的数据,查询到的数据都是双份,正是所期待的效果。

2018-05-25 02:30
好了,到此,可以删除原索引内的对应集团的数据了,晚上还算比较顺利。

总结

本次数据迁移涉及到三方部门:开发、测试、运维。数据迁移本身并不复杂,需要的是各部门之间的配合以及细心。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容