BGREWRITEAOF 有时不生效或卡住,是因为 fork 子进程失败或延迟(如内存不足、启用 THP),导致重写未真正启动;需检查 INFO persistence 状态及 dmesg 日志,并调优内核参数与自动重写阈值。
为什么 BGREWRITEAOF 有时不生效或卡住
执行 BGREWRITEAOF 后,AOF 文件大小没变,甚至 Redis 进程 CPU 占用飙升、响应变慢——这不是失败,而是重写过程仍在后台进行,且可能被阻塞。Redis 在重写时会 fork 子进程,若当前 AOF 文件已达 GB 级别,fork 耗时显著(尤其在内存紧张或启用了透明大页 THP 的系统上),子进程创建失败或延迟严重,就会表现为“命令返回 OK,但文件没变化”。
- 检查
INFO persistence中的aof_rewrite_in_progress:1和aof_rewrite_scheduled:1状态,确认是否真在运行或排队 - 查看系统日志(
dmesg)是否有Cannot allocate memory,这是 fork 失败的典型信号 - 禁用透明大页:
echo never > /sys/kernel/mm/transparent_hugepage/enabled,否则 fork 易失败 - 确保
vm.overcommit_memory = 1(Linux 内核参数),避免因内存策略拒绝 fork
auto-aof-rewrite-percentage 和 auto-aof-rewrite-min-size 怎么配才合理
自动触发重写的两个阈值常被设得过于激进,导致频繁重写或长期不触发。默认是 auto-aof-rewrite-percentage 100(比上次重写后增长 100%)和 auto-aof-rewrite-min-size 64mb,但实际中:如果业务写入量低,AOF 增长慢,可能永远达不到 64MB;反之,高写入场景下,100% 增长可能意味着每次重写都处理数 GB 数据,加重负载。
- 写入平稳的小型实例:可调低
auto-aof-rewrite-min-size到16mb,百分比保持100 - 写入突增明显的业务(如定时导入):把
auto-aof-rewrite-percentage提高到200或300,避免刚重写完就又触发 - 务必配合
CONFIG REWRITE持久化配置,否则重启后恢复为默认值 - 注意:这两个参数只对「当前已存在的 AOF 文件」起作用;如果 AOF 是空的(比如刚开启 aof 或上次重写失败),不会触发自动重写
omegafw.gmcwatch.cn
rolexfw.gmcwatch.cn
patekfw.gmcwatch.cn
omegafw.swatchsh.com
rolexfw.swatchsh.com
patekfw.swatchsh.com
omegafw.paydyj.com
rolexfw.paydyj.com
patekfw.paydyj.com
omegafw.watchku.com
rolexfw.watchku.com
patekfw.watchku.com
omegafw.gmcwatch.cn
rolexfw.gmcwatch.cn
patekfw.sitezj.cn
手动执行 BGREWRITEAOF 前必须检查的三件事
不是所有时机都适合强制重写。盲目执行可能让磁盘 I/O 爆满、主从同步延迟陡增,甚至触发 OOM killer。
- 确认磁盘剩余空间 ≥ 当前 AOF 文件大小的 2 倍(重写期间新写入仍追加到旧 AOF,同时子进程生成新文件)
- 检查主从状态:
INFO replication中master_last_io_seconds_ago应 - 避开业务高峰 ——
BGREWRITEAOF不阻塞客户端命令,但 fork + 写入新 AOF 会争抢 CPU 和磁盘带宽,QPS 高时延迟易翻倍
重写后 AOF 文件仍很大?可能是这些操作在“偷偷写入”
重写完成、redis.conf 里也设置了 appendonly yes,但几小时后 AOF 又涨回原来大小。问题往往不在重写本身,而在重写后发生的“非数据变更类写入”。
-
EXPIRE/PEXPIRE类命令会记入 AOF(即使 key 已过期,Redis 仍会显式写入 DEL) - 使用了
KEYS *+DEL批量清理,每条DEL都落盘;改用SCAN+UNLINK可减少 AOF 写入量(UNLINK异步删,不记 AOF) - 开启了
aof-use-rdb-preamble yes(Redis 7.0+ 默认),重写后会先写一段 RDB 格式头,再接 AOF 命令,整体体积未必明显缩小 —— 这是设计使然,不是异常 - 检查是否有客户端持续发送
CONFIG SET appendfsync everysec等命令,这类配置变更也会写入 AOF,积累多了也占空间
重写 AOF 不是“一键瘦身”,它本质是一次带条件的全量快照重建。真正影响最终体积的,是重写窗口期内的写入模式、key 生命周期管理方式,以及你是否意识到某些看似无害的操作(比如批量过期设置)其实在持续放大 AOF。