关于pg热备与主备切换网上很多内容都有了,本文仅为自己测试使用,特意记录过程,或对其他人提供参考。本文作者选择pg9.6.1版本作为测试。
一 主备机器规划
主机名 | IP | 角色 | 端口
:----:|:----:|:----:|:----:|:----:|:----:
master| 192.168.0.108 |Master|5432
slave|192.168.0.109|Slave|5432
前提:分别在两台主机上安装好pg数据库,安装过程参考之前博客说明http://www.jianshu.com/p/639ebb43bfb4。
二 创建流复制
2.1 设置host
master,slave两节点都要操作。
[root@bogon ~]# vim /etc/hosts
#编辑内容如下:
192.168.43.127 master
192.168.43.243 slave
按esc,wq!保存退出。
2.2 初始化master数据库
以下操作在master下执行:
#切换到postgres账户
[root@bogon ~]# su - postgres
#初始化data
[postgres@bogon ~]$ initdb -D $PGDATA
# 启动master数据库
[postgres@bogon ~]$ pg_ctl start -D $PGDATA
#创建流复制用户
[postgres@bogon ~]$ psql
psql (9.6.1)
Type "help" for help.
postgres=# CREATE USER repuser replication LOGIN CONNECTION LIMIT 3 ENCRYPTED PASSWORD 'repuser';
CREATE ROLE
2.3 配置pg_hba.conf
在master的pg_hba.conf最后一行增加如下:
host all all 0.0.0.0/0 md5
host replication repuser slave md5
2.4 配置postgresql.conf
在master端配置如下:
listen_addresses = '*'
port = 5432
max_wal_senders = 1
wal_level = replica
archive_mode = on
archive_command = 'cd ./'
hot_standby = on
wal_keep_segments = 64
full_page_writes = on
wal_log_hints = on
配置完成后,重启master数据库
[postgres@bogon ~]$ pg_ctl restart -D $PGDATA
2.5 pg_basebackup 创建备库
在slave端的postgres账户下执行:
#切换到postgres账户
[root@bogon ~]# su - postgres
#从主库备份创建备库
[postgres@bogon ~]$ pg_basebackup -D $PGDATA -Fp -Xs -v -P -h master -p 5432 -U repuser
transaction log start point: 0/2000060 on timeline 1
pg_basebackup: starting background WAL receiver
22806/22806 kB (100%), 1/1 tablespace
transaction log end point: 0/2000130
pg_basebackup: waiting for background process to finish streaming ...
pg_basebackup: base backup completed
修改slave中data目录下的pg_hba.conf最后一行修改如下:
host all all 0.0.0.0/0 md5
host replication repuser master md5
2.6 配置recovery.conf
Master端配置如下:
[postgres@bogon ~]$ ls
bin data gdal geos include lib proj4 share
[postgres@bogon ~]$ cp share/recovery.conf.sample data/recovery.done
[postgres@bogon ~]$ vim data/recovery.done
#编辑内容如下
recovery_target_timeline = 'latest'
standby_mode = on
primary_conninfo = 'host=slave port=5432 user=repuser password=repuser'
trigger_file = '/home/postgres/data/trigger_file'
Salve端配置如下:
[postgres@bogon ~]$ ls
bin data gdal geos include lib proj4 share
[postgres@bogon ~]$ cp share/recovery.conf.sample data/recovery.conf
[postgres@bogon ~]$ vim data/recovery.conf
#编辑内容如下
recovery_target_timeline = 'latest'
standby_mode = on
primary_conninfo = 'host=master port=5432 user=repuser password=repuser'
trigger_file = '/home/postgres/data/trigger_file'
2.7 配置.pgpass
master上配置访问slave参数
[postgres@bogon ~]$ vim .pgpass
slave:5432:postgres:repuser:repuser
slave上配置访问master参数
[postgres@bogon ~]$ vim .pgpass
master:5432:postgres:repuser:repuser
2.8 流复制数据同步测试
分别启动master,slave数据库
在master上创建一个数据库和临时表
[postgres@bogon data]$ psql
psql (9.6.1)
Type "help" for help.
postgres=# \password #创建数据库密码
#创建测试数据库
postgres=# create database test;
CREATE DATABASE
postgres=# \c test
You are now connected to database "test" as user "postgres".
test=# create table tt(id serial not null,name text);
CREATE TABLE
test=# insert into tt(name) values ('china');
INSERT 0 1
在slave上查询刚才创建的表和数据,判定是否有数据同步
[postgres@bogon data]$ psql
psql (9.6.1)
Type "help" for help.
postgres=# \c test
You are now connected to database "test" as user "postgres".
test=# select * from tt;
id | name
----+-------
1 | china
(1 row)
很明显,从库已经同步了主库的数据,到此可以说PG流复制热备已经创建结束了。以下对流复制做一些简单的应用。
三 主备切换
一般可以通过若干命令查询数据库的主备属性,主数据库是读写的,备数据库是只读的。当主数据库宕机了,可以通过建立触发文件,备数据库将被提升为主数据库,实现一些基本的HA应用。
3.1 查询主备
3.1.1 pg_controldata
主机
[postgres@localhost ~]$ pg_controldata
pg_control version number: 960
Catalog version number: 201608131
Database system identifier: 6362107256088627972
Database cluster state: in production
备机
pg_control version number: 960
Catalog version number: 201608131
Database system identifier: 6362107256088627972
Database cluster state: in archive recovery
主机的cluster state是in production,备机的cluster state是in archive recovery。
3.1.2 字典表pg_stat_replication
在主机字典表中是能查到记录,备机中是查询不到的。
postgres=# select pid,application_name,client_addr,client_port,state,sync_state from pg_stat_replication;
pid | application_name | client_addr | client_port | state | sync_state
-------+------------------+---------------+-------------+-----------+------------
17131 | walreceiver | 192.168.0.105 | 55734 | streaming | async
(1 row)
3.1.3 进程信息识别
进程中显示wal sender的是主机,显示wal receiver的是备机
master:
slave:
3.1.4 通过pg函数
备机是t,主机是f。
主机
postgres=# select pg_is_in_recovery();
pg_is_in_recovery
-------------------
f
(1 row)
备机
postgres=# select pg_is_in_recovery();
pg_is_in_recovery
-------------------
t
(1 row)
3.2 备机切换成主机
主机宕机前:
主机执行pg_ctl stop 命令。
宕机后:
备机报错,说不能连接主机了。
之前曾配置过:
trigger_file = '/home/postgres/datatrigger_file'
备机切换到主机,在备机上执行
[postgres@localhost ]$ touch /home/postgres/data/trigger_file;
再去备机上查看进程:
备机已经切换到主机了。
3.3 原来主机切换成备机
在当前主机(现在是slave了,主机切换了)执行插入语句
postgres=# insert into tt(name) values('sdf');
如果master上data目录中的recovery.done没有变成recovery.conf,可以手动强制更改。
[postgres@data]$ mv recovery.done recovery.conf
如果已经是recovery.conf就直接执行下面的。
#启动数据库
[postgres@data]$ pg_ctl start
[postgres@bogon data]$ ERROR: requested starting point 0/6000000 on timeline 1 is not in this server's history
DETAIL: This server's history forked from timeline 1 at 0/4000098.
ERROR: requested starting point 0/6000000 on timeline 1 is not in this server's history
DETAIL: This server's history forked from timeline 1 at 0/4000098.
ERROR: requested starting point 0/6000000 on timeline 1 is not in this server's history
#其实还有很多时间线不一致等
原因是当前主机slave数据发生变化了,原来的master数据和当前数据不一致了,要确保数据时间线一致。我们使用pg_rewind来同步时间线。
在master(从机上操作)
#从slave上拉取最新时间线和数据给当前的master
[postgres@bogon ~]$ pg_rewind --target-pgdata=/home/postgres/data --source-server='host=slave port=5432 user=postgres dbname=postgres'
target server must be shut down cleanly
Failure, exiting
发现报错了,说target server 必须关闭,source-server是slave,那么target server就是master,那么停掉master上pg服务。
#先停止服务
[postgres@bogon ~]$ pg_ctl stop
#再拉取数据
[postgres@bogon ~]$ pg_rewind --target-pgdata=/home/postgres/data --sourceserver='host=slave port=5432 user=postgres dbname=postgres'
servers diverged at WAL position 0/4000098 on timeline 1
rewinding from last common checkpoint at 0/4000028 on timeline 1
Done!
#重启服务
[postgres@bogon ~]$ pg_ctl start
可以检查下,现在的master上数据和slave是一致的了。