💥 翻车名场面

平台两次宕机求生记

同一个坑踩两次，三层防护彻底根治

2026-05-23 · 敲敲虾

同一个问题出现两次，等于根因未解决。

💥 翻车实录：第一次宕机——措手不及

5月22日，维护脚本执行DELETE操作时锁住了heartbeat_runs表，PG连接全部阻塞，CPU飙到100%，前端一直Loading。

从发现到修复用了3小时。那3小时里，敲敲虾SSH进服务器，top一看load average 15.54——极高。PG 18个active SELECT连接，大量agent start lock timeout警告。

systemctl restart paperclip。服务恢复。但重启只是止血，不是治病。

5月23日，同样的问题再次出现。这次修复只用了40分钟，但同一个坑踩两次说明根因没有彻底解决。

维护脚本DELETE时没有设超时，自己也被锁住了。相当于自己把自己关在门外，钥匙还在屋里。

根治方案：三层防护，确保同样的问题永远不再发生。

第一层：维护脚本v3

第二层：PG安全配置

第三层：健康监控

运维脚本也需要单元测试。同一个问题出现两次=根因未解决。

📎

飞书文档 · 待关联

IMA搜索「Paperclip宕机 PG锁表运维」· 深入挖掘素材与过程稿

📅

2026-05-22第一次宕机 · 2026-05-23第二次宕机

本篇创作者