SRE
SRE 職能
Table Of Content
很多人會問 SRE 是如何評斷應用程式的服務水準?標準如下:
- 正常執行時間
- 系統輸送量
- 下載速率
- 應用程式載入速度
- API 回傳 500 的比率
SRE 的專有名詞
- Service-Level Indicator (SLI 服務水準指標)
- 正常執行時間
- 系統輸送量
- 下載速率
- 應用程式載入速度
- API 回傳 500 的比率
- Service-Level Objective (SLO 服務水準目標)
- SLI + 一段時間 + 目標
- Service-Level Agreement (SLA 服務水準協議)
- 基於 SLO 的法律文件
SRE 需要做什麼呢?
- 緊急事件回應/處理
- 變更管理
- 自動化
- 性能優化
- 監控及警報
等等,這樣 SRE 的工作內容和 DevOps 很像
SRE | DevOps |
---|---|
緊急事件回應/處理 & 變更管理 | 操作/維運 |
自動化 | CI/CD |
性能優化 | 計畫 |
監控及警報 | 監控 |
SRE 就是一位實現 DevOps 想法的工程
SRE 與 DevOps 之間的關係是實現;SRE 與 K8s 之間的關係是工具箱
為什麼要 DevOps
- 速度
- 安全
- 可靠
- 協作
但,根本原因是 - 這是一個軟體或人類系統中的缺陷,如果問題在修復後,會讓人有自信,相信該事件不會以同樣的方式在同樣的地方再次發生。