如何成为一个SRE(Linux 服务器运维) 2019/04/09 | 基本知识,运维 | Zhiming Zhang | 1 条评论 | 17992 views 如何才能成为一个SRE呢? 首先要明确什么是SRE , Site/Service Reliability Engineering ,中文的翻译就是:服务(网站)运维 顾名思义,就是一个运维人员,作为一个SRE你需要做什么呢?大致来说: 1:环境初始化,包括服务器系统安装,初始服务安装,初始安全策略配置,初始权限系统配置 2:监控初始化,包……
减少SRE人力的介入,让系统自动修复 2017/05/12 | 运维 | Zhiming Zhang | 1 条评论 | 5012 views 作为一个运维人员来说,明天基本上就是监控,又报警的短信或者邮件的时候, 处理这些报警,让服务恢复正常,但是我们真正想做的,并不是人为的去解决这些可以自动解决的问题,我们希望的是当自动修复出现问题的时候,我们才需要接入,这才是我们的目标 以apache的监控为例: 常规状态: 报警(apache not running)->短信发送到……