CloudCanal实现跨互联网数据安全同步(进阶)

简介

CloudCanal 实现的 基于 Kafka 构建安全的跨互联网数据同步 方案被客户用于生产后,又出现了新的需求,主要集中在方案能否更加轻量化和可控性上,简而言之,去掉 Kafka 中转,直接在 CloudCanal 中实现跨网络安全互通。
本篇文章即介绍 CloudCanal 实现的更加轻量化方案,特点包括

  • 无消息等独立软件依赖
  • 两端数据库完全不开放公网端口
  • 两端数据库元数据可映射
  • 基于 HTTPS 传输
  • 具备用户名密码鉴权机制
  • 支持多种数据库异构互通

技术点

image.png

Tunnel数据源

去掉消息依赖的跨互联网数据库互通,我们是通过一个虚拟的数据源 Tunnel 实现。
Tunnel 数据源本身并不是实体数据库,而是一组逻辑信息,包括

  • ip(或域名)
  • port
  • 用户名
  • 密码
  • TLS 证书文件和密码
  • 元数据

通过这个虚拟数据源,我们可以使用 HTTP(S) 或 TCP 实现数据拉取或者接收数据的目的,同时完全匹配 CloudCanal 业务模型,达到功能的完整性。

PUSH模型

对于数据传输模式 PUSH 或 PULL,我们选择了 PUSH 模式,即客户端将数据推送到服务端,本质原因在于

  • 主要解决互通问题,而非订阅问题
  • 目标端同步写入数据更加匹配 CloudCanal 其他目标端风格
  • 数据通道无数据持久化,无需维护 store 来暂存数据

当然,PUSH 模式也带来一些问题,包括

  • 如何确保最终数据写入再提交位点
  • 位点回溯复杂(全量和增量、不同数据源位点格式不一致)

对于上述两个问题,我们采用 延迟提交位点技术 解决

延迟提交位点技术

采用 PUSH 模式后,位点管理是比较复杂且危险的工作,如果提早提交位点,可能丢数据。
为此,我们实现了 延迟提交位点技术,即客户端每一次写入 server 端,只返回已经提交的位点,并且将所有数据源、所有任务类型的位点序列化成 json 字符串。

通过这项技术,我们能够确保位点之前的数据肯定已经写到对端,并且在某些业务场景下,通过客户端任务的位点回溯,达到重复消费某一段时间数据的目的。

元数据映射

因为使用了虚拟的 Tunnel 数据源,并且其带有 schema(存储于CloudCanal kv配置表中), 所以针对这个数据源,我们模拟了表结构获取和迁移的过程,让其在任务创建和运维过程中如同一个真实存在的数据库。
一个真实的 Tunnel 数据源的元数据如下:

[
  {
    "db": "cc_virtual_db",
    "schemas": [
      {
        "schema": "cc_virtual_schema",
        "tables": [
          {
            "table": "WORKER_STATS",
            "columns": [
              {
                "name": "ID",
                "jdbcType": -5,
                "typeName": "LONG",
                "key": true
              },
              {
                "name": "GMT_CREATE",
                "jdbcType": 93,
                "typeName": "TIMESTAMP",
                "key": false
              },
              {
                "name": "AUCRDT",
                "jdbcType": 93,
                "typeName": "TIMESTAMP",
                "key": false
              }
            ]
          },
          {
            "table": "KBS_QUESTION",
            "columns": [
              {
                "name": "ID",
                "jdbcType": -5,
                "typeName": "LONG",
                "key": true
              },
              {
                "name": "CATEGORY",
                "jdbcType": 12,
                "typeName": "STRING",
                "key": false
              }
            ]
          }
        ]
      }
    ]
  }
]

我们可以通过结构迁移 (MySQL/SQLServer/Oracle -> Tunnel) 扩充它,或者直接通过 数据源管理->更多->查看配置->**dbsJson **进行修改。

操作示例

本示例使用阿里云资源模拟杭州 RDS for MySQL 到深圳 RDS for MySQL , 两端数据库均不开公网端口,数据走互联网, 采用 HTTPS 传输和用户名密码认证。

环境准备

  • 杭州环境部署 CloudCanal ,并购买 RDS for MySQL 作为源端
image.png

image.png
  • 深圳环境部署 CloudCanal , 并购买 RDS for MySQL 作为目标端
image.png

image.png
  • 因 CloudCanal 为 docker 版本 , 深圳环境 CloudCanal 安装包解压后 ,需要修改 docker-compose.yml 端口映射再安装/升级,并开放 ECS 安全组相关端口,以便远程连接。
    • 此例以 18443 端口作为 Tunnel 数据源监听端口
image.png

image.png

为目标端数据库初始化元数据

  • 因无法通过 Tunnel 到对端数据库做结构迁移,所以需要事先使用 mysqldump 等工具初始化对端数据库结构
image.png

添加 Tunnel 数据源

  • 分别在源端和目标端 CloudCanal 配置 Tunnel 数据源
image.png
  • 源端数据源列表
image.png
  • 目标端数据源列表
image.png

为 Tunnel 初始化元数据

  • 源端创建一个 MySQL -> Tunnel 结构迁移,并完成
image.png

image.png
  • 目标端
    • 从源端 Tunnel 数据源拷贝结构并复制到对端
image.png

image.png

image.png

目标端任务创建

  • 选择 Tunnel 和 目标数据库
image.png
  • 选择数据同步
image.png
  • 选择表、列、映射略
  • 任务正常运行,监听端口并准备接收数据
image.png

源端任务创建

  • 选择源端数据库 和 Tunnel 数据源
image.png
  • 选择数据同步,并初始化数据
image.png
  • 数据初始化中(如有效率问题,可忽略)
image.png
  • 数据持续同步中
image.png

数据验证

造增量数据

  • 为了造数据简便,开下源端数据库公网地址
image.png

数据校验

  • 在深圳环境添加源端数据源,并做数据校验。结果显示数据一致。
image.png

常见问题

  • 目前支持哪些链路的互通?

    • MySQL/SQLServer/ORACLE -> MySQL , 其他互通按需添加。
  • Tunnel 到对端数据库能做结构迁移么?准备表结构比较麻烦

    • 因为数据库结构对元数据精度要求很高,Tunnel中间结构主要为同步服务,所以元数据级别上还无法构成精确的结构迁移源端。建议构建临时实例(只dump表结构)并开公网,再使用CloudCanal结构迁移解决问题。
  • Tunnel 数据源有结构,能动态编辑么?

    • Tunnel 数据源模拟了一个数据库,编辑任务能力天然具备。加表先编辑目标端任务,再编辑源端任务,否则反之。我们后续计划用一篇专门的文章介绍这个运维操作。
  • 目前数据互通还存在什么问题?

    • 对于 blob 等字段类型还需要进一步支持和验证
    • 跨互联网,性能层面需要经过特别的优化
    • 安全层面,目前仅用到 HTTPS 证书加密,配合自定义的账号密码

总结

本文主要介绍纯粹通过 CloudCanal 进行数据互通实践,通过引入虚拟数据源,达成数据互通和元数据映射等能力,具备不错的可落地性。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,639评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,093评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,079评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,329评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,343评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,047评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,645评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,565评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,095评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,201评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,338评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,014评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,701评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,194评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,320评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,685评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,345评论 2 358

推荐阅读更多精彩内容