标签目录:sre

以下是与标签 “sre” 相关联的文章

如何成为一个SRE(Linux 服务器运维)

如何才能成为一个SRE呢? 首先要明确什么是SRE , Site/Service Reliability Engineering ,中文的翻译就是:服务(网站)运维 顾名思义,就是一个运维人员,作为一个SRE你需要做什么呢?大致来说: 1:环境初始化,包括服务器系统安装,初始服务安装,初始安全策略配置,初始权限系统配置 2:监控初始化,包……

减少SRE人力的介入,让系统自动修复

作为一个运维人员来说,明天基本上就是监控,又报警的短信或者邮件的时候, 处理这些报警,让服务恢复正常,但是我们真正想做的,并不是人为的去解决这些可以自动解决的问题,我们希望的是当自动修复出现问题的时候,我们才需要接入,这才是我们的目标 以apache的监控为例: 常规状态: 报警(apache not running)->短信发送到……