Site Reliability Engineering - kurz 65 000 rub. ze Slurmu, školení, Datum 1. ledna 2024.
Různé / / November 29, 2023
LIDEM
Inženýr SRE může být buď provozní inženýr, nebo vývojář. Během intenzivního kurzu si toho hodně procvičíte a dovednosti a znalosti, které získáte, můžete přizpůsobit a uplatnit v jakémkoli oboru.
OBCHODNÍ
SRE řeší stejné problémy jako DevOps: zvyšuje rychlost vydávání nových funkcí a zlepšuje procesy v týmu. Hlavním úkolem SRE je však zajistit stabilitu a spolehlivost služeb, s výjimkou situací, kdy si uživatelé stěžují na poruchy a inženýři mají zelené plány.
Stavíme:
Naše školicí stránka se skládá z několika mikroslužeb. Agreguje data o představeních, cenách a dostupných sedadlech ze všech kin, uvádí filmová oznámení, umožňuje vybrat kino, představení, sál a místo, rezervovat a zaplatit vstupenky.
Pro tento web zformulujeme indikátory SLO, SLI, SLA, vyvineme architekturu a infrastrukturu, která je bude podporovat, nastavíme monitoring a upozorňování.
Chyby vývojářů, selhání infrastruktury, příliv návštěvníků a DoS útoky vedou ke zhoršení SLO.
Analyzujeme stabilitu, chybovost, testovací praxi, řízení přerušení a provozní zátěž.
Byla tu nehoda. Služba zpracování plateb nefunguje. Jak jednat pro obnovení funkčnosti v co nejkratším čase?
Organizujeme práci týmu reakce na mimořádné události: zapojení kolegů, informování zainteresovaných stran, stanovení priorit. Trénujeme práci pod tlakem v extrémně omezených časových podmínkách.
Podívejme se na přístup k webu z pohledu SRE. Analyzujeme incidenty (příčiny vzniku, postup odstraňování). Děláme rozhodnutí, abychom jim dále předcházeli: zlepšujeme monitorování, měníme architekturu, přístup k vývoji a provozu a předpisy. Automatizujeme procesy.
— Máme desítky vybudovaných infrastruktur a stovky napsaných kanálů CI/CD,
— Certifikovaný správce Kubernetes,
— Autor několika kurzů na Kubernetes a DevOps,
— Pravidelný řečník na ruských a mezinárodních konferencích IT.
DEN 1: Úvodní zasedání AMA
Probereme cíle a cíle kurzu a také vám řekneme, co je SRE a rozdělíme to do týmů.
Otevření 2 teoretických témat:
Téma 1: Monitorování
- Proč je nutné monitorování?
- Percentily
- Upozornění
- Pozorovatelnost
Téma 2: Teorie SRE
- SLO, SLI, SLA
- Trvanlivost
- Chyba rozpočtu
DEN 2: analýza praktik a případů
Praxe: Vytvoření základního dashboardu a nastavení potřebných upozornění
Praxe: Přidání SLO/SLI + upozornění na palubní desku
Praxe: První zatížení systému
Řešení případu 1: downstreamová závislost.
Ve velkém systému existuje mnoho vzájemně propojených služeb a ne vždy fungují stejně dobře. Je to obzvláště nepříjemné, když je vaše služba v pořádku, ale ta sousední, na které jste závislí, pravidelně klesá.
Vzdělávací projekt se ocitne přesně v těchto podmínkách a vy zajistíte, že bude stále produkovat kvalitu na nejvyšší možné úrovni.
DEN 3: Sezení AMA, odpovědi na otázky
Otevře se přístup do 2. teoretického modulu:
Řešení problémů s prostředím a architekturou
Druhý modul je postaven na řešení dvou případů: upstream závislosti a architektonických problémů. Přednášející budou hovořit o řízení incidentů, pravidlech pro hasiče a práci s pitvou a poskytnou šablony, které můžete použít ve svém týmu.
Téma 3: Řízení incidentů
- Resilience Engineering
- Jak vzniká hasičský sbor
- Jak efektivní je váš tým v incidentu?
- 7 pravidel pro vedoucího incidentu
- 5 pravidel pro hasiče
- HiPPO - názor nejlépe placené osoby. Vedoucí komunikace
TTéma 4: Nástroje Varrum a správa výstrah.
Nejlepší praxe jiných společností při organizování správy incidentů.
DEN 4: Analýza praktik a případů
Řešení případu 2: upstream závislost.
Jedna věc je, když jste závislí na službě s nízkým SLO. Jiná věc je, když je vaše služba stejná pro ostatní části systému. K tomu dochází, pokud kritéria hodnocení nejsou konzistentní: například odpovíte na požadavek během sekundy a považujete jej za úspěšný, ale závislá služba čeká pouze 500 moskevského času a odejde s chybou.
V případě probereme důležitost harmonizace metrik a naučíme se dívat na kvalitu očima klienta.
Řešení případu 3: problémy s databází.
Zdrojem problémů může být i databáze. Pokud například nebudete sledovat přenos replikace, replika bude zastaralá a aplikace vrátí stará data. Kromě toho je ladění takových případů obzvláště obtížné: nyní jsou data nekonzistentní, ale po několika sekundách již nejsou konzistentní a není jasné, co je příčinou problému.
Prostřednictvím pouzdra pocítíte všechnu bolest ladění a naučíte se, jak takovým problémům předcházet.
Praxe: Napíšeme pitvu na předchozí případ a probereme to s řečníky.
DEN 5: Sezení AMA, odpovědi na otázky
Sezení AMA a odpovědi na otázky k předchozím tématům.
Otevře se přístup do 3. teoretického modulu:
Dopravní stínění a vypouštění kanárků
Ve třetím modulu rozebereme případ věnovaný problému s životním prostředím (bude zde podrobný rozbor Health Kontrola) a také krok za krokem analyzujeme, jak implementovat SRE ve firmách a dozvíme se zkušenosti společností, kde řečníci pracují intenzivní
Téma 5: Kontrola stavu
- Kontrola stavu v Kubernetes
- Je naše služba stále naživu?
- Exec sondy
- InitialDelaySeconds
- Port sekundárního zdraví
- Server zdraví Sidecar
- Bezhlavá sonda
- Hardwarová sonda
Téma 6: Metody nasazení
Téma 7: Onboarding projektu SRE
Velké společnosti často tvoří samostatný tým SRE, který přebírá na podporu služby jiných oddělení. Ne každá služba je ale připravena na přijetí k podpoře. Řekneme vám, jaké požadavky musí splňovat. Řečníci se také podělí o své zkušenosti, jak implementovali SRE a jaké chyby udělali.
6. DEN: analýza praktik a případů
Řešení případu 4: je problém s prostředím, nelze zakoupit vstupenky.
Úkolem Healthchecku je detekovat nefunkční službu a blokovat provoz na ni. A pokud si myslíte, že k tomu stačí zadat požadavek na službu s rootem a dostat odpověď, pak vy mýlíte se: i když služba odpoví, nezaručuje to její fungování - mohou nastat problémy okolí.
Prostřednictvím tohoto případu se naučíte, jak nakonfigurovat správný Healthcheck a nedovolit, aby provoz směřoval tam, kde jej nelze zpracovat.
Shrnutí