Kurz "Datový inženýr" - kurz 95 000 rub. z Yandex Workshop, školení 6,5 měsíce, Datum: 11. prosince 2023.
Různé / / November 30, 2023
Pro zkušené vývojáře
Naučte se budovat infrastrukturu pro práci s daty a systematizovat své znalosti, abyste je mohli využít ve své aktuální roli nebo změnit směr na datového inženýra.
Pro začínající datové inženýry
Strukturování znalostí: kromě jasné teorie bude spousta praxe. Získáte zkušenosti s prací na projektech – to vám pomůže vybudovat portfolio, odlišit se od ostatních kandidátů a neztratit se v reálné práci.
Specialisté a analytici datové vědy
Osvojte si dovednosti, které vám pomohou zvládat úkoly efektivněji: budovat datové kanály, navrhovat výklady, budovat ETL a shromažďovat nezpracovaná data ve velkých objemech.
Aktualizace datového modelu
1 modul 2 týdny
Společnost vás i nadále ponoří do svých procesů. Data, se kterými jste pracovali, byla aktualizována, takže musíte změnit datový model.
V tomto kurzu:
- pochopit, jak společnost buduje databázi;
- aktualizovat strukturu stávající databáze v souladu s novými obchodními požadavky;
- připravit nové ukázky a metriky pro analytiky a manažery.
Technologie a nástroje:
- PostgreSQL
+1 projekt v portfoliu
Vybudujte datový trh s postupným načítáním pro analýzu publika v internetovém obchodě.
DWH: revize datového modelu
Modul 2 3 týdny
Společnost roste, datová architektura je stále složitější. Dostanete úkol – optimalizovat procesy s daty.
V tomto kurzu:
- promyslet proces přechodu ze starého databázového schématu na nový a zároveň minimalizovat obchodní ztráty (nasazení s nulovými prostoji);
- připravit migraci dat;
- vzít v úvahu možné problémy a navrhnout možnost vrácení změn;
- implementovat novou strukturu databáze a přizpůsobit ji stávajícím procesům kolem dat.
Technologie a nástroje:
- PosgreSQL
- Krajta
+1 projekt v portfoliu
Datový model dáte do pořádku a migrujete data v rámci aktuálního úložiště internetového obchodu.
ETL: automatizace přípravy dat
Modul 3 3 týdny
Nyní víte téměř vše o firemním datovém skladu. Je čas přehodnotit procesy ETL.
V tomto kurzu:
- automatizovat datový kanál;
- konfigurovat automatické stahování dat ze zdrojů;
- naučit se pravidelně a postupně načítat data do databáze.
Technologie a nástroje:
- Krajta
- Proud vzduchu
- PostgreSQL
+1 projekt v portfoliu
Vytvořte kanál pro automatizovaný příjem, zpracování a načítání dat ze zdrojů do obchodu pro projekt elektronického obchodu.
Kontrola kvality dat
Modul 4 1 týden
Chcete si být jisti, že vaše první potrubí fungují dobře. Kvalita dat musí být kontrolována a poruchy musí být včas sledovány.
V tomto kurzu:
- porozumět tomu, jak používat metainformace a dokumentaci;
- vyhodnotit kvalitu dat.
DWH pro více zdrojů
Modul 5 2 týdny
Pokračujete ve výzkumu DWH, protože vývoj společnosti a tím i nárůst objemu dat nelze zastavit.
V tomto kurzu:
- vybudovat DWH od nuly na relačním DBMS;
- seznamte se s MongoDB jako zdrojem dat.
Technologie a nástroje:
- PostgreSQL
- MongoDB
+1 projekt v portfoliu
Navrhnete a implementujete DWH pro in-house startup.
Analytické databáze
Modul 6 2 týdny
Existuje stále více specifických nestrukturovaných dat, která je také potřeba uchovávat a zpracovávat. Proto vám jako příklad představíme koncept analytických databází s využitím Vertica DBMS.
V tomto kurzu:
- organizace skladování studií ve Vertica;
- naučit se provádět základní operace s daty ve Vertica;
- vybudovat jednoduchý datový sklad ve Vertica.
Technologie a nástroje:
- Vertica
- PostgreSQL
- Proud vzduchu
- S3
+1 projekt v portfoliu
Sestavte DWH pro vysokozatížený nízkostrukturovaný messenger datový systém pomocí Vertica.
Organizace Data Lake
Modul 7 4 týdny
Klasická řešení nepomáhají vyrovnat se s objemem dat. Abyste se vyrovnali s novými obchodními výzvami, postavíte a naplníte datové jezero.
V tomto kurzu:
- zvažte architekturu Data Lake (přel. "datové jezero");
- naučit se zpracovávat data v systému MPP;
- naplnit datové jezero daty ze zdrojů;
- procvičit si zpracování dat pomocí PySpark a Airflow.
Technologie a nástroje:
- hadoop
- MapReduce
- HDFS
- Apache Spark (PySpark)
+1 projekt v portfoliu
Vybudujte Data Lake a automatizujte načítání a zpracování dat v něm.
Zpracování streamu
Modul 8 3 týdny
Překonali jste potíže s velkým množstvím dat, ale objevil se nový úkol – potřebujete pomoci podniku rychleji se rozhodovat. Zde budete potřebovat znalosti o zpracování streamových dat. streamování).
V tomto kurzu:
- zvážit vlastnosti proudového zpracování dat;
- vybudovat si vlastní streamovací systém;
- vybudovat obchod s využitím dat v reálném čase.
Technologie a nástroje:
- Kafka
- Spark Streaming
+1 projekt v portfoliu
Vyvinete systém zpracování dat v reálném čase.
Cloudové technologie
Modul 9 3 týdny
Nyní můžete pracovat jak s velkými objemy dat, tak se streamy. Zbývá jen automatizovat škálování systémů pomocí cloudových služeb.
V tomto kurzu se naučíte implementovat již nastudovaná řešení, ale v cloudu (jako příklad použijeme Yandex Cloud).
Technologie a nástroje:
- Yandex. Mrak
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 projekt v portfoliu
Budete rozvíjet infrastrukturu pro ukládání a zpracování dat v cloudu.
Absolventský projekt
Modul 10 3 týdny
Potvrďte, že jste se naučili nové dovednosti.
Zde budete muset nezávisle vybrat a implementovat řešení obchodního problému. To vám pomůže znovu posílit používání nástrojů, které jste se naučili, a také vaši nezávislost.