centos7部署clickhouse及mysql到ck的数据同步(maxwell方案)

安装部署

参考官方文档:https://clickhouse.tech/docs/zh/getting-started/install/

源码包安装:源码包安装default账号密码为空

image.png

二进制包安装,二进制包安装会提示输入default密码

image.png

启动方式

源码包安装启动:sudo systemctl start clickhouse-server.service
二进制包安装启动:在二进制包安装目录 ./clickhouse start
命令行终端(源码包安装):clickhouse client
命令行终端(二进制包安装):./clickhouse client

配置文件,主要配置项:

数据存储目录:修改以下两项配置即可,默认目录在/var/lib/clickhouse,修改目录配置记得修改相应权限,目录权限给到clickhouse用户
/etc/clickhouse-server/config.xml

image.png

image.png

允许远端访问:如下如所示,将监听端口配置项解除注释状态
image.png

客户端工具

DBeaver 下载链接:https://dbeaver.io/download/

image.png

导入mysql数据至clickhouse

CREATE TABLE 同mysql表名 ENGINE = MergeTree ORDER BY id AS SELECT * FROM mysql('IP:端口', '库名', '表名', '账号', '密码');

以上语句需到clickhouse命令行终端执行,创建MergeTree 引擎的表,作用是同步指定mysql的表结构及数据。

image.png
create database mysql_clickhouse_test ENGINE = MaterializeMySQL('192.168.56.45:3306', 'mysql_clickhouse_test', 'base', '123456');

以上脚本作用是创建MaterializeMySQL引擎的数据库,通过mysql binlog方式实时同步mysql数据变化到clickhouse,该功能还处于实验阶段,功能很强大,现实很残酷,就是不好使!至此,已经可以进行sql查询,验证列式数据库的效率是否足矣吊打mysql。

Java项目集成clickhouse

主要依赖:JDBC驱动包,连接数据库用法同mysql类似,主要区别在于sql上的语法区别,不是所有mysql函数都在clickhouse可以执行,例如sum函数在clickhouse中不能对String类型的字段做求和处理,需要使用toFloat32等函数对数据做转义处理

<dependency>
      <groupId>ru.yandex.clickhouse</groupId>
      <artifactId>clickhouse-jdbc</artifactId>
      <version>0.1.54</version>
</dependency>
image.png
image.png

mysql到clickhouse的数据实时同步

打开binlog,设置为row级别,打开gtid,修改配置文件后续重启mysql生效

image.png

安装maxwell同步中间件

http://maxwells-daemon.io/quickstart/#configure-mysql

修改配置文件

image.png

同步服务前的准备工作:

1、先在clickhouse中建好名称相同的数据库,语法同MySQL一样

2、使用架构师大佬提供的脚本程序基于mysql中的表结构字段类型生成clickhouse的建表脚本。

3、运行构建脚本,此处需注意,脚本对相对路径有引用,需在主目录(bin目录上级)执行相关脚本,后续启动maxwell服务也一样

image.png

4、执行脚本程序输出的clickhouse建表语句,使用客户端控制台可直接运行脚本

clickhouse-client --user default --password -d international_index --multiquery <  /data/maxwell/maxwell-1.33.1/init_ck_tables.sq

5、启动maxwell执行 bin/maxwell --daemon 命令,注意观察logs目录下输出的日志文件是否有异常

6、初始化同步,如果是一个新的同步,需要把原来mysql表的存量数据也写入初始化到clickhouse中。这个时候需要运行一个脚本。在mysql的数据库中运行.

insert into maxwell.bootstrap (database_name, table_name)
values ('database_name', 'table_name'),
('database_name', 'table_name');

如果同步的表有上千万数据,可分批执行初始化同步,同步脚本可携带参数

insert into maxwell.bootstrap (database_name, table_name,where_clause)
values ('hollycasdb', 'tbl_agent_log','a=1');

7、查看同步状态

select * from maxwell.bootstrap

注意事项:所同步的表中必须要有主键字段

8、过程中遇到的问题及解决方案

1:修改配置文件中的存储目录后一直报权限异常,目录权限均已配置
解决方案:大概是因为安装在系统盘,数据存储盘的格式或挂载方式有问题导致clickhouse无法访问到制定磁盘目录,重新格式化磁盘再次挂载解决该问题

2:clickhouse物化引擎无法同步mysql二进制日志
解决方案:也许是版本问题,该功能官方提示还处在实验阶段,现解决方案是不用该引擎,通过架构师大佬封装的maxwell程序实现mysql到clickhouse的数据同步

clickhouse终端执行sql脚本

clickhouse-client --user default --password -d international_index --multiquery <  /data/maxwell/maxwell-1.33.1/init_ck_tables.sql

mysql至clickhouse数据同步方案参考某大佬的方案

https://hollycx.yuque.com/docs/share/bab7da34-ce47-475e-9be3-df58890cbe57?#

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容