Svetainės patikimumo inžinerija - kursas 65 000 rub. iš Slurm, mokymai, Data 2024 m. sausio 1 d.
įvairenybės / / November 29, 2023
ŽMONĖMS
SRE inžinierius gali būti operacijų inžinierius arba kūrėjas. Intensyvaus kurso metu daug praktikuosite, o įgytus įgūdžius ir žinias galėsite pritaikyti ir pritaikyti bet kurioje srityje.
VERSLAS
SRE išsprendžia tas pačias problemas kaip ir DevOps: padidina naujų funkcijų išleidimo greitį ir pagerina procesus komandoje. Tačiau pagrindinė SRE užduotis yra užtikrinti paslaugų stabilumą ir patikimumą, neįskaitant situacijų, kai vartotojai skundžiasi dėl gedimų, o inžinieriai turi žalius grafikus.
Mes statome:
Mūsų mokymo svetainę sudaro kelios mikropaslaugos. Jis apibendrina duomenis apie pasirodymus, kainas ir laisvas vietas iš visų kino teatrų, rodo filmų anonsus, leidžia pasirinkti kino teatrą, spektaklį, salę ir vietą, rezervuoti ir sumokėti už bilietus.
Suformuluosime šios svetainės SLO, SLI, SLA rodiklius, sukursime juos palaikančią architektūrą ir infrastruktūrą, nustatysime stebėjimą ir perspėjimą.
Kūrėjų klaidos, infrastruktūros gedimai, lankytojų antplūdis ir DoS atakos pablogina SLO.
Analizuojame stabilumą, klaidų biudžetą, testavimo praktiką, trikdžių valdymą ir veiklos apkrovą.
Įvyko nelaimė. Mokėjimų apdorojimo paslauga neveikia. Kaip elgtis, kad funkcionalumas būtų atkurtas per trumpiausią įmanomą laiką?
Organizuojame avarijų likvidavimo komandos darbą: įtraukiame kolegas, informuojame suinteresuotas šalis, nustatome prioritetus. Mokomės dirbti esant spaudimui itin riboto laiko sąlygomis.
Pažvelkime į požiūrį į svetainę SRE požiūriu. Analizuojame incidentus (įvykimo priežastis, šalinimo eigą). Priimame sprendimus, kad toliau jų išvengtume: tobuliname stebėseną, keičiame architektūrą, požiūrį į plėtrą ir veikimą bei reglamentus. Automatizuojame procesus.
- Turime dešimtis pastatytų infrastruktūrų ir šimtus rašytinių CI / CD vamzdynų,
– Sertifikuotas Kubernetes administratorius,
- Kelių kursų apie Kubernetes ir DevOps autorius,
— Nuolatinis pranešėjas Rusijos ir tarptautinėse IT konferencijose.
1 DIENA: AMA pradžios sesija
Aptarsime kurso tikslus ir uždavinius, taip pat pasakysime, kas yra SRE ir suskirstysime jį į komandas.
2 teorinių temų atidarymas:
1 tema: Stebėjimas
- Kodėl reikalingas stebėjimas?
- Procentiliai
- Įspėjimas
- Stebimumas
2 tema: SRE teorija
- SLO, SLI, SLA
- Patvarumas
- Biudžeto klaida
2 DIENA: praktikos ir atvejų analizė
Praktika: Pagrindinio prietaisų skydelio kūrimas ir būtinų įspėjimų nustatymas
Praktika: SLO/SLI + įspėjimų įtraukimas į prietaisų skydelį
Praktika: Pirmoji sistemos apkrova
1 atvejo sprendimas: priklausomybė pasroviui.
Didelėje sistemoje yra daug tarpusavyje susijusių paslaugų, kurios ne visada veikia vienodai gerai. Ypač nemalonu, kai jūsų paslauga yra tvarkinga, o kaimyninė, nuo kurios priklausote, periodiškai nusileidžia.
Edukacinis projektas atsidurs būtent tokiomis sąlygomis, ir jūs užtikrinsite, kad jis vis tiek gamins aukščiausios kokybės kokybę.
3 DIENA: AMA sesija, atsakyta į klausimus
Atsidaro prieiga prie 2-ojo teorinio modulio:
Aplinkos ir architektūros problemų sprendimas
Antrasis modulis sukurtas sprendžiant du atvejus: priklausomybės prieš srovę ir architektūrines problemas. Pranešėjai kalbės apie incidentų valdymą, ugniagesių tarnybos taisykles ir darbą su post mortems bei pateiks šablonus, kuriuos galėsite naudoti savo komandoje.
3 tema: Incidentų valdymas
- Atsparumo inžinerija
- Kaip formuojasi ugniagesių komanda
- Kiek efektyvi jūsų komanda yra incidente?
- 7 taisyklės incidento lyderiui
- 5 taisyklės ugniagesiui
- HiPPO – geriausiai apmokamo asmens nuomonė. Komunikacijos vadovas
T4 tema: Varrum įrankiai ir įspėjimų valdymas.
Geriausia kitų įmonių praktika organizuojant incidentų valdymą.
4 DIENA: praktikos ir atvejų analizė
2 atvejo sprendimas: priklausomybė prieš srovę.
Vienas dalykas, kai priklausote nuo paslaugos su mažu SLO. Kitas dalykas, kai jūsų paslauga yra tokia pati kitose sistemos dalyse. Taip atsitinka, jei vertinimo kriterijai nesutampa: pavyzdžiui, per sekundę atsakote į užklausą ir laikote ją sėkminga, tačiau priklausoma tarnyba laukia tik 500 Maskvos laiko ir išeina su klaida.
Byloje aptarsime metrikų harmonizavimo svarbą ir mokysimės pažvelgti į kokybę kliento akimis.
3 atvejo sprendimas: problemos su duomenų baze.
Duomenų bazė taip pat gali būti problemų šaltinis. Pavyzdžiui, jei nestebėsite replikacijos perdavimo, replika pasens ir programa grąžins senus duomenis. Be to, tokius atvejus derinti ypač sunku: dabar duomenys nenuoseklūs, bet po kelių sekundžių nebenuoseklūs ir neaišku, kokia yra problemos priežastis.
Per atvejį pajusite visą derinimo skausmą ir sužinosite, kaip išvengti tokių problemų.
Praktika: Rašome pomirtinį pranešimą apie ankstesnį atvejį ir aptariame jį su pranešėjais.
5 DIENA: AMA sesija, atsakyta į klausimus
AMA sesija ir atsakymai į klausimus ankstesnėmis temomis.
Atsidaro prieiga prie 3-iojo teorinio modulio:
Eismo ekranavimas ir kanarėlių paleidimai
Trečiame modulyje analizuosime atvejį, skirtą aplinkos problemai (bus išsamiai analizuojama Sveikata Tikrinimas), taip pat žingsnis po žingsnio analizuosime, kaip įdiegti SRE įmonėse ir sužinosime įmonių, kuriose dirba pranešėjai, patirtį. intensyvus
5 tema: sveikatos patikrinimas
- Sveikatos patikrinimas Kubernetes mieste
- Ar mūsų tarnyba vis dar gyva?
- Exec zondai
- InitialDelaySeconds
- Antrinis sveikatos uostas
- Sidecar sveikatos serveris
- Zondas be galvos
- Aparatūros zondas
6 tema: Diegimo metodai
7 tema: SRE projekto įtraukimas
Didelės įmonės dažnai sudaro atskirą SRE komandą, kuri imasi kitų skyrių paslaugų. Tačiau ne kiekviena paslauga yra paruošta gauti paramą. Mes jums pasakysime, kokius reikalavimus jis turi atitikti. Pranešėjai taip pat pasidalins savo patirtimi, kaip įgyvendino SRE ir kokias klaidas padarė.
6 DIENA: praktikos ir atvejų analizė
4 atvejo sprendimas: yra problema su aplinka, neįmanoma nusipirkti bilietų.
„Healthcheck“ užduotis yra aptikti sugedusią paslaugą ir blokuoti srautą į ją. Ir jei manote, kad tam pakanka pateikti užklausą tarnybai su root ir gauti atsakymą, tada jūs klystate: net jei paslauga reaguoja, tai negarantuoja jos veikimo - gali kilti problemų aplinka.
Šiuo atveju sužinosite, kaip sukonfigūruoti tinkamą sveikatos patikrinimą ir neleisti srautui patekti ten, kur jo negalima apdoroti.
Apibendrinant