ZooKeeper性能瓶颈诊断与事故复盘

瓶颈诊断和事故复盘是持续改进的关键。

性能瓶颈诊断

诊断工具：

CPU瓶颈诊断：

Bash

# 查看进程CPU
top -p $(pgrep -f zookeeper)

# 线程CPU占用分析
jstack <pid> > thread.txt
# 分析高CPU线程

内存瓶颈诊断：

Bash

# JVM内存使用
jstat -gc <pid> 1000

# 内存分布分析
jmap -histo <pid> | head -20

# 堆内存转储
jmap -dump:format=b,file=heap.bin <pid>

IO瓶颈诊断：

Bash

# 磁盘IO
iotop -p $(pgrep -f zookeeper)

# 磁盘写入测试
dd if=/dev/zero of=/dataDir/test bs=1M count=100

# 磁盘IO统计
iostat -x 1

瓶颈定位表：

性能指标监控：

Bash

# 关键指标
echo mntr | nc localhost 2181

zk_avg_latency   # 平均延迟
zk_max_latency   # 最大延迟
zk_packets_received  # 请求量
zk_num_alive_connections  # 连接数

延迟分析：

text

延迟>100ms → 可能问题：
1. 磁盘IO慢 → 日志单独磁盘
2. GC停顿长 → 调优GC或增加内存
3. 网络延迟高 → 检查网络状态
4. 请求数过多 → 扩展Observer

提示：延迟是最直观的性能指标，持续监控告警。

复盘流程：

text

1. 收集故障时间线
2. 分析根本原因
3. 制定改进措施
4. 落实预防措施
5. 更新运维文档
6. 分享复盘结果

故障时间线模板：

text

时间 | 事件 | 影响
10:00 | Leader宕机检测 | 集群停止写请求
10:05 | 新Leader选举完成 | 服务恢复
10:10 | Follower同步完成 | 全部节点恢复

根因分析方法：

预防措施设计：

监控告警配置：

text

告警规则：
Leader切换 > 3次/小时 → 告警
平均延迟 > 100ms → 告警
磁盘使用 > 80% → 告警
连接数 > maxClientCnxns×0.8 → 告警
内存使用 > 80% → 告警

高可用改进：

复盘文档模板：

text

# 故障复盘报告

## 故障概述
时间、影响范围、恢复时间

## 时间线
详细的故障发生过程

## 根因分析
导致故障的根本原因

## 改进措施
具体优化和预防措施

## 待办事项
需要落实的任务清单

提示：每次故障后复盘改进，持续提升集群可靠性。

📝 发现内容有误？点击此处直接编辑