Sre | 张志明的个人博客

标签目录:sre

以下是与标签 “sre” 相关联的文章

减少SRE人力的介入,让系统自动修复

作为一个运维人员来说,明天基本上就是监控,又报警的短信或者邮件的时候, 处理这些报警,让服务恢复正常,但是我们真正想做的,并不是人为的去解决这些可以自动解决的问题,我们希望的是当自动修复出现问题的时候,我们才需要接入,这才是我们的目标 以apache的监控为例: 常规状态: 报警(apache not running)->短信发送到……