Site Reliability Engineering

Details
Vollständiger Name

Site Reliability Engineering (SRE)

Auch bekannt als

"Betrieb als Softwareproblem", Google SRE

Kernkonzepte:

Betrieb als Softwareproblem

Software-Engineering auf Betriebsaufgaben anwenden statt manueller Administration.

SLI / SLO / SLA

Service Level Indicators messen das Verhalten; Objectives setzen interne Ziele; Agreements sind externe Zusagen.

Fehlerbudget

100 % Verfügbarkeit ist das falsche Ziel; die erlaubte Unzuverlässigkeit (1 − SLO) ist ein Budget für Entwicklungsgeschwindigkeit und Risiko.

Risiko akzeptieren

Zuverlässigkeit wird gegen Kosten und Änderungsgeschwindigkeit abgewogen, nicht blind maximiert.

Toil eliminieren

Wiederkehrende, manuelle, automatisierbare Betriebsarbeit reduzieren; die Betriebslast begrenzen (~50 %), um Zeit für Engineering zu schützen.

Schuldlose Postmortems

Aus Vorfällen lernen, indem Systeme und Prozesse analysiert werden, statt Schuld zuzuweisen.

Monitoring & Observability

Die vier goldenen Signale messen — Latenz, Traffic, Fehler, Sättigung.

Release- & Kapazitäts-Engineering

Launches, Rollouts und Kapazitätsplanung automatisieren, um Änderungen sicher und wiederholbar zu machen.

Schlüsselvertreter

Ben Treynor Sloss (prägte den Begriff bei Google); Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy ("Site Reliability Engineering", O’Reilly 2016, und "The Site Reliability Workbook")

Wann zu verwenden:

  • Betrieb von Produktivdiensten, deren Zuverlässigkeit gemessen und gesteuert werden muss

  • Definition von SLOs und Fehlerbudgets, um Zuverlässigkeit und Entwicklungsgeschwindigkeit abzuwägen

  • Etablierung von On-Call, Incident Response und schuldlosen Postmortems

  • Reduzierung von betrieblichem Toil durch Automatisierung

  • Abgrenzung der Verantwortung für Zuverlässigkeit von allgemeiner DevOps-Kultur

Verwandte Anker:

Aktueller Stand:

  • Der Prior bedient den Kanon gut: SRE Book (2016) und Workbook (2018) — SLOs, Error Budgets, Toil, Postmortems — bleiben maßgeblich, und Google stellt alle drei Bücher inklusive "Building Secure and Reliable Systems" (2020) frei unter sre.google/books bereit

  • Bewegt hat sich seitdem der organisatorische Rahmen: SRE-Praxis konvergiert zunehmend mit Platform Engineering — Reliability-Fähigkeiten wandern in interne Plattformen statt in eigenständige SRE-Teams; nachzulesen in Googles eigener Platform-Engineering-Anleitung