Apache Spark sistema kūrėjams: pažengęs lygis - kursas 41 500 rub. iš TVM mokymo centro, mokymai 24 val., Data 2023 m. lapkričio 26 d.
įvairenybės / / December 05, 2023
Mokymai suteikia išsamų supratimą apie Apache Spark sistemos vidinę struktūrą ir veikimą – tiek Spark Core (RDD), Spark SQL, Spark Streaming ir Spark Structured Streaming. Nagrinėjami skirtingų klasterių valdytojų valdomų Spark klasterio komponentų paleidimo mechanizmai, išteklių (pirmiausia atminties) paskirstymo valdymas, planuotojų darbo mechanizmai. Išsamiai išnagrinėti „Tungsten“ vidinio vaizdavimo formato privalumai ir „Catalyst“ optimizatoriaus veikimas.
Aptariamos temos:
„Spark“ vidinė architektūra, „Spark Runtime Environment“.
Spark Context nustatymas, SparkConf
RDD vidiniai elementai, loginis išdėstymas
Geriausia programavimo naudojant RDD praktika
Fizinis planas: darbas, etapai, užduotys
Planuotojai ir fizinio plano vykdymas
Atminties derinimas, serializavimas, kaupimas talpykloje, šiukšlių surinkimas
Duomenų šaltinio API, vidinis volframo duomenų atvaizdavimas, failų formatai
Katalizatoriaus optimizavimo priemonė
Microbatch Spark Streaming: duomenų priėmimas ir išvedimas
Struktūrinis srautas: duomenų priėmimas ir platinimas