Kurz „Datový analytik“ - kurz 96 000 rub. z Yandex Workshop, školení 7 měsíců, datum 7. prosince 2023.
Různé / / December 02, 2023
Datový analytik získává význam z čísel a hodnot: vidí trendy, předpovídá události a pomáhá společnosti porozumět zákazníkům, optimalizovat procesy a růst.
Trh potřebuje specialisty, kteří umí data užitečně využívat. Studie personální společnosti Ancor ze září 2022 ukázala, že 45 % ruských společností hledá do svého týmu analytiky.
Dovednosti, které se na kurzu naučíte
Pracovní pozice
Analytik, datový analytik, datový analytik
Možnosti rozvoje: Produktový analytik, marketingový analytik, BI analytik, specialista na datovou vědu
Zde jsou technologie a nástroje, které budete používat:
Krajta
Notebook Jupyter
SQL
PostgreSQL
Živý obraz
A/B testy
Začněte vydělávat peníze analýzou
Začnete z juniorské pozice, a pak teprve postupujete vpřed. Budete stoupat po kariérním žebříčku a zvyšovat svou hodnotu. A jednoho dne to pro vás nebude mít žádnou cenu.
Kompletní program kurzu analýzy dat
Pravidelně jej aktualizujeme, abychom zajistili, že splňuje potřeby průmyslu a zaměstnavatelů.
Jinými slovy, učíte se jen to, co se vám ve vaší práci bude určitě hodit.
Volná část - 1 týden
Volný úvod: Základy Pythonu a analýzy dat
Naučte se základní koncepty analýzy dat a pochopte, co dělají datoví analytici a datoví vědci.
• Moskevské Catnamycs. Zobrazení dat na obrazovce. CSV soubory. Práce s tabulkami. Teplotní mapy. Násobení sloupce celým číslem.
• Chyby v kódu. Syntaktické chyby. Chyby v pojmenování. Chyby při dělení nulou. Chyby při importu modulu.
• Proměnné a datové typy. Proměnné. Typy dat. Aritmetické operace s čísly a řetězci.
• Jak vytvářet hypotézy. Hypotézy. HADI cykly. Analytické myšlení. Čtení grafů.
• Co dělají datoví vědci. Úkoly analytika. Vyjasnění úkolů. Rozklad. Fáze projektu.
• Kontrola převodů. Konverze. Průzkum dat. Tvorba závěrů.
• Návratnost reklamních kampaní. Sloupcový graf. Rozdíl prvků. Indexování ve sloupcích.
• Strojové učení a Data Science. Školení ve strojovém učení. Hledání jedinečných hodnot ve sloupcích. Logické indexování. Seskupení hodnot v tabulce. Chyby předpovědi.
• Konečný projekt. Segmentace uživatelů.
PythonPandasErrorsSeabornHypothesesConversionVariablesDat TypesHeatmaps
1 sprint 3 týdny
Základní Python
Ponořte se hlouběji do programovacího jazyka Python a knihovny Pandas.
• Proměnné a datové typy. jazyk Python. Proměnné. Zobrazení dat na obrazovce. Zobrazení objektů na obrazovce. Ošetření chyb, zkuste...kromě operátora. Typy dat. Konverze datových typů.
• Čáry. Indexy v řádcích. Linie řezy. Operace na strunách. Řetězcové metody. Formátování řetězců, metoda format(), f-řetězce.
• Seznamy. Indexy v seznamech. Seznam řezů. Přidávání položek do seznamu. Odebírání položek seznamu. Sčítání a násobení seznamů. • Třídění seznamů. Vyhledejte položky v seznamu. Rozdělení řetězce na seznam řetězců, zřetězení seznamu řetězců do řetězce.
• Pro smyčku. Cykly. Výčet prvků. Iterace přes indexy prvků. Zpracování prvků seznamu pomocí smyček: nalezení součtu a součinu prvků.
• Vnořené seznamy. Procházení vnořených seznamů s počítacími hodnotami. Přidávání prvků do vnořených seznamů. Řazení vnořených seznamů.
• Podmíněný operátor. Zatímco smyčka. Booleovský datový typ. Booleovské hodnoty. Logické výrazy. Složené logické výrazy. Podmíněné prohlášení, pokud...elif...jinak. Větvení. Filtrování seznamů pomocí podmíněného operátoru. Zatímco smyčka.
• Funkce. Přidělování funkcí. Parametry a argumenty. Parametry s výchozími hodnotami. Poziční a pojmenované argumenty. Vrácení výsledku z funkce.
• Slovníky. Klíče a hodnoty. Hledání hodnoty podle klíče. Přidávání položek do slovníku. Seznam slovníků. Krásný výstup slovníků.
• Knihovna pand. Čtení csv souborů. Datový rámec. Konstruktor datového rámce. Tisk prvního a posledního řádku datového rámce. Indexování v datových rámcích. Indexování na sloupcích řady.
• Předzpracování dat. Princip GIGO. Přejmenování sloupců datového rámce. Manipulace s chybějícími hodnotami. Zpracování explicitních a implicitních duplikátů.
• Analýza dat a prezentace výsledků. Seskupování dat. Třídění dat. Základy deskriptivní statistiky.
• Jupyter Notebook – notebook v buňce. Rozhraní notebooku Jupyter. Zkratky pro notebook Jupyter.
LoopsPythonPandasStringsListsFunctionsDictionariesDataFrameVariablesDataTypesPodmíněné prohlášení
Projekt
Porovnejte uživatelská data Yandex Music podle města a dne v týdnu.
2 sprint 2 týdny
Předzpracování dat
Naučte se čistit data od odlehlých hodnot, opomenutí a duplikátů a také převádět různé datové formáty.
• Práce s pasy. Konverze. Soubory cookie. Kategorické a kvantitativní proměnné. Zvládání mezer v kategorických proměnných. Řešení mezer v kvantitativních proměnných. Řešení mezer v kvantitativních proměnných podle kategorií.
• Změna datových typů. Čtení souborů aplikace Excel. Převést řadu na číselný typ. Modul čísel, metoda abs(). Práce s datem a časem. Ošetření chyb, zkuste...kromě operátora. Slučování datových rámců, metoda merge(). Kontingenční tabulky.
• Hledat duplikáty. Hledejte duplikáty, rozlišujte malá a velká písmena.
• Kategorizace dat. Dekompozice tabulek. Kategorizace podle číselných rozsahů. Kategorizovat na základě více hodnot na řádek.
• Systematické a kritické myšlení v práci analytika. Systémové myšlení. Příčiny datových chyb. Kritické myšlení.
PythonPandasGap handlingData processingDuplicate processingDatacategorization
Projekt
Analyzujte data o klientech bank a určete podíl těch bonitních.
3 sprint 2 týdny
Průzkumná analýza dat
Naučte se základy pravděpodobnosti a statistiky. Použijte je k prozkoumání základních vlastností dat, hledání vzorců, distribucí a anomálií. Seznamte se s knihovnou Matplotlib. Kreslit diagramy a procvičovat analýzu grafů.
• První grafy a závěry. Použití kontingenčních tabulek. Sloupcový graf. Distribuce. Diagram rozsahu.
• Studium datových řezů. Metoda query(). Práce s datem a časem. Vykreslování grafů pomocí metody plot(). Occamova břitva.
• Práce s více zdroji dat. Datový řez založený na externích objektech. Přidání nových sloupců do datového rámce. Přidávání dat z jiných datových rámců. Přejmenování sloupců. Kombinování tabulek pomocí metod merge() a join().
• Datové vztahy. Bodový diagram. Korelace proměnných. Matice rozptylového grafu.
• Validace výsledků. Konsolidace skupin. Rozdělení dat do skupin.
PythonPandasMatplotlibHistogramsData SlicesData AnalysisScatterplotScatterplotVizualizace datPopisné statistiky
Projekt
Prozkoumejte archiv inzerátů na prodej nemovitostí v Petrohradě a Leningradské oblasti.
4 sprint 3 týdny
Statistická analýza dat
Naučte se analyzovat vztahy v datech pomocí statistických metod. Přečtěte si, co jsou to statistické významnosti a hypotézy.
• Kombinatorika. Kombinace. Pravidlo násobení. Přeskupení. Počet permutací. Umístění. Počet umístění. Kombinace. Počet kombinací.
• Teorie pravděpodobnosti. Experiment. Pravděpodobnostní prostor. Události. Pravděpodobnost. Prolínající se a vzájemně se vylučující události. Euler-Vennův diagram. Zákon velkých čísel.
• Deskriptivní statistika. Kategorické a kvantitativní proměnné. Režim a medián. Průměrná hodnota. Disperze. Standardní odchylka. Kvartily a percentily. Diagram rozsahu. Sloupcový graf. Frekvenční hustota. Sloupcový graf.
• Náhodné proměnné. Diskrétní náhodná veličina. Rozdělení pravděpodobnosti pro diskrétní náhodnou veličinu. Kumulativní funkce (distribuční funkce) diskrétní náhodné veličiny. Matematické očekávání diskrétní náhodné veličiny. Disperze diskrétní náhodné veličiny.
• Distribuce. Bernoulliho experiment. Binomický experiment. Binomické rozdělení. Plynulé rovnoměrné rozdělení. Normální distribuce. Standardní normální rozdělení. CDF a PPF pro normální rozdělení. Poissonovo rozdělení. Aproximace jedné distribuce druhou.
• Testování hypotéz. Obecná populace. Vzorek. Distribuce vzorků. Teorém centrálního limitu. Jednostranné a oboustranné hypotézy. P-hodnota. Testování jednostranných a oboustranných hypotéz pro jeden vzorek. Testování hypotézy o rovnosti průměrů dvou obecných populací. Testování hypotézy rovnosti průměrů pro závislé vzorky.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistributions Testování hypotéz Teorie pravděpodobnosti
Projekt
Otestujte si hypotézy půjčovny skútrů, které vám pomohou růst vašeho podnikání.
Extra Sprint
Teorie pravděpodobnosti
Zapamatujte si nebo rozpoznejte základní pojmy teorie pravděpodobnosti: nezávislé, opačné, neslučitelné události atd. Na jednoduchých příkladech a zábavných úlohách si procvičíte práci s čísly a budování logiky řešení.
Toto je volitelný sprint. To znamená, že si každý student sám vybere jednu z možností:
• Zvládněte další sprint 10 krátkých lekcí, oprášte teorii a řešte problémy.
• Otevřete pouze blok s úkoly na pohovor, připomeňte si praxi bez teorie.
• Kurz úplně přeskočte nebo se k němu vraťte, když je čas a potřeba.
PythonEventsPravděpodobnostBayesova větaNáhodné proměnnéTeorie pravděpodobnostiStatistická analýza dat
5 sprintů 1 týden
Závěrečný projekt prvního modulu
Naučte se provádět předběžný výzkum dat a formulovat a testovat hypotézy.
ScipyNumpyPythonPandasMatplotlib Analýza dat Testování hypotéz Zpracování dat
Projekt
Najděte vzory v údajích o prodeji her.
6 sprint 2 týdny
Základní SQL
Naučte se základy strukturovaného dotazovacího jazyka SQL a relační algebry pro práci s databázemi. Seznamte se s funkcemi práce v PostgreSQL, oblíbeném systému pro správu databází (DBMS). Naučte se psát dotazy různé úrovně složitosti a překládat obchodní problémy do SQL. Budete pracovat s databází internetového obchodu, který se specializuje na filmy a hudbu.
• Úvod do databází. Systémy pro správu databází (DBMS). jazyk SQL. SQL dotazy. Formátování SQL dotazů.
• Datové řezy v SQL. Datové typy v PostgreSQL. Konverze datových typů. klauzule WHERE. Logické operátory. Datové řezy. Operátoři IN, LIKE, BETWEEN. Práce s datem a časem. Manipulace s chybějícími hodnotami. Podmíněná konstrukce CASE.
• Agregační funkce. Seskupování a řazení dat. Matematické operace. Agregační funkce. Seskupování dat. Třídění dat. Filtrování podle agregovaných dat, operátor HAVING.
• Vztahy mezi tabulkami. Typy spojení tabulek. ER diagramy. Přejmenování polí a tabulek. Přezdívky. Slučování tabulek. Typy spojení: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN. Alternativní typy odborů UNION a UNION ALL.
• Poddotazy a běžné tabulkové výrazy. Dílčí dotazy. Dílčí dotazy ve FROM. Dílčí dotazy ve WHERE. Kombinace spojení a poddotazů. Společné tabulkové výrazy (CTE). Variabilita požadavků.
SQLDBMSPostgreSQLPoddotazyDatabázeDotazy SQLFiltrování datŘazení datSeskupování datSpojování tabulekBěžné tabulkové výrazy
Projekt
Do databáze, která ukládá data o venture investorech, startupech a investicích do nich, napíšete řadu dotazů různé složitosti.
7 sprint 3 týdny
Analýza obchodních ukazatelů
Přečtěte si, jaké metriky jsou v podnikání. Naučte se používat nástroje pro analýzu dat v podnikání: kohortová analýza, prodejní cesta a ekonomika jednotek.
• Metriky a cesty. Konverze. Nálevky. Marketingový trychtýř. Dojmy. kliknutí. CTR. Nálevka k produktu.
• Kohortová analýza. Uživatelský profil. míra retence. Míra odchodu. Analytický horizont. Vizualizace kohortové analýzy. Retenční analýza náhodných kohort. Konverze v kohortové analýze. Výpočet metrik v Pythonu.
• Ekonomika jednotky. Metriky LTV, CAC, ROI. ARPU, ARPPU. Výpočet metrik v Pythonu. Pokročilá vizualizace metrik. Parametr Sharey. Klouzavý průměr.
• Vlastní metriky. Hodnocení aktivity uživatele. Uživatelská relace. Vyšetřování anomálií.
MetricsFunnelsConversionEkonomika jednotkyKohortová analýzaProduktové metrikyMarketingové metriky
Projekt
Na základě dat porozumět chování uživatelů a také analyzovat ziskovost zákazníků a návratnost investic do reklamy, abyste mohli marketingovému oddělení doporučit.
8 sprint 2 týdny
Pokročilé SQL
Absolvujete doplňkový kurz práce s databázemi a stanete se ještě blíže byznysu. Pomocí jazyka SQL budete analyzovat výpočet hlavních obchodních metrik, se kterými jste se seznámili ve sprintu „Analýza obchodních ukazatelů“. Zvažte práci se složitým nástrojem, jako jsou funkce oken. Naučte se měnit obsah databází lokálně, bez simulátoru, pomocí speciálních klientských programů a knihoven pro Python.
• Výpočet obchodních ukazatelů. Datové schéma. Konverze. LTV. ARPU. ARPPU. ROI. Výpočet pomocí SQL.
• Agregace funkcí okna. OVER výraz. Parametr PARTITION BY okna.
• Funkce řazení oken. Pořadové funkce. Okno ORDER BY operátor. ROW_NUMBER(). HODNOST(). DENSE_RANK(). NTILE(). Okenní operátory spolu s funkcemi hodnocení.
• Funkce posunu okna. Kumulativní hodnoty. Offsetové funkce. VÉST(). ZPOŽDĚNÍ(). Funkce oken a aliasy.
• Kohortová analýza. Míra udržení, míra odchodu. LTV.
• Instalace a konfigurace databáze a databázového klienta. Databázový klient. Instalace PostgreSQL. Instalace DBeaver. DBeaver rozhraní. Vytvoření databáze. Nasazení výpisu databáze. Nahrávání výsledků dotazu. Prezentace výsledků dotazu.
SQLDBMSMetricsPostgreSQLDatabázeSQL dotazyFunkce oknaKohortová analýza
Projekt
Pomocí Pythonu a SQL se připojte k databázi, vypočítejte a vizualizujte klíčové metriky v programovacím systému služeb Q&A.
9 sprint 2 týdny
Rozhodování v podnikání
Dozvíte se, co je A/B testování a pochopíte, v jakých případech se používá. Naučte se navrhovat A/B testování a vyhodnocovat jeho výsledky.
• Základy testování hypotéz v podnikání. Přední metriky. Základy experimentů. Generování hypotéz. Prioritizace metrik. Výběr metody pro provedení experimentu. Kvalitativní metody testování hypotéz. Kvantitativní metody testování hypotéz. Výhody a nevýhody A/B testů.
• Stanovení priority hypotéz. Rámec RICE. Parametr dosahu. Parametr dopadu. Parametr spolehlivosti. Parametr úsilí.
• Příprava na provedení A/B testu. A/A test. Chyby typu I a II. Síla statistického testu. Význam statistického testu. Vícenásobná srovnání, metody pro snížení pravděpodobnosti chyby. Výpočet velikosti vzorku a trvání A/B testu. Grafická analýza metrik.
• Analýza výsledků A/B testů. Testování hypotézy rovnosti podílů. Shapiro-Wilkův test pro testování normality dat. Neparametrické statistické testy. Mann-Whitney test. Stabilita kumulativních metrik. Analýza odlehlých hodnot a burstů.
• Behaviorální algoritmy. Fakta, emoce, hodnocení. Vysvětlete svůj úhel pohledu.
A/B testování Prioritizace hypotéz Příprava na A/B testování Analýza výsledků A/B testování Analýza výsledků A/B testování
Projekt
Analyzujte výsledky A/B testování ve velkém internetovém obchodě.
10 sprintů 1 týden
Závěrečný projekt druhého modulu
Naučte se testovat statistické hypotézy pomocí A/B testování a připravujte závěry a doporučení ve formátu analytické zprávy.
Prodejní trychtýřA/B testování Zpracování datVýzkumná analýza dat
Projekt
Prozkoumejte prodejní cestu a analyzujte výsledky A/B testování v mobilní aplikaci.
11 sprint 2 týdny
Jak vyprávět příběh pomocí dat
Dozvíte se, jak správně prezentovat výsledky svého výzkumu pomocí grafů, nejdůležitějších čísel a jejich správné interpretace. Seznamte se s knihovnami Seaborn a Plotly.
• Komu, jak, co a proč sdělit. Prezentace výsledku výzkumu. Cílové publikum vypravěče. Co a proč sdělit datovému analytikovi.
• Knihovna Seaborn. Knihovna Seaborn jako rozšíření knihovny Matplotlib. metoda jointplot(). Barevné rozsahy. Styly grafů. Vizualizace rozvodů.
• Knihovna plotry. Interaktivní grafy. Hranový graf. Sloupcový graf. Výsečový graf. Trychtýřový graf.
• Vizualizace dat v geoanalytice. Geoanalytika. Folium knihovny. Zobrazení mapy. Nastavení značek se zadanými souřadnicemi. Vytváření bodových shluků. Vlastní ikony pro značky. Horoplet.
• Příprava prezentace. Závěry na základě studie. Sezónnost a vnější faktory. Absolutní a relativní hodnoty. Simpsonův paradox. Zásady tvorby prezentací. Zprávy v Jupyter Notebooku.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalyticsData vizualizace
Projekt
Připravte studii trhu na základě otevřených dat o zařízeních veřejného stravování v Moskvě, získaná data vizualizujte.
12 sprint 2 týdny
Vytváření řídicích panelů v Tableau
V tomto sprintu budete pracovat se systémem Tableau BI. Naučte se připojovat se k datům a upravovat je, vytvářet různé typy grafů, sestavovat řídicí panely a prezentace.
• Základy práce s Tableau. BI systémy. Živý obraz. Vytvoření dokumentu. Ukládání dokumentu. Zveřejnění dokumentu.
• Práce se zdroji dat. Zdroje dat. Slučování dat. Vztahová metoda. Metoda spojení. Blend metoda. Union metoda. Změna formátu tabulky.
• Typy dat. Základní datové typy. Měření. Opatření. Práce s datem a časem. Sady. Skupiny. Možnosti. Změna formátu proměnných. Proměnné Názvy měření, hodnoty měření, počet.
• Tabulky a výpočty. Rozhraní pro úpravu listů. Kontingenční tabulky. Vypočítaná pole. LOD výrazy.
• Filtry a třídění. Míry řazení. Rozměry řazení. Vnořené druhy. Řazení pomocí parametru. Filtry.
• Vizualizace. Ovládací prvky vizualizace. Teplotní mapy. Koláčové grafy. Sloupcové grafy. Histogramy. Diagramy rozsahu. Bodový diagram. Spojnicové grafy. Kombinované grafy. Plošné grafy.
• Speciální vizualizace a popisky. Karty. Mapa znaků. Bublinový graf. Stromová mapa. Diagramy kruhových pohledů. Odrážkové diagramy. Ganttovy diagramy. Měřte názvy a měřte hodnoty ve vizualizacích. Reverzní inženýrství. Popisky. Popisky s vizualizacemi. Prahové hodnoty v grafech. Analytické nástroje v Custom.
• Prezentace. Extra možnosti. Studium typických parametrů. Vytvoření prezentace.
• Řídicí panely. Načítání a příprava dat. Příprava vizualizací. Sestava palubní desky. Akce. Ukázka palubní desky. Publikování řídicího panelu.
TableauDashboardsBI-toolsBI-tools Vizualizace dat
Projekt
Prozkoumejte historii konferencí TED a na základě získaných dat vytvořte dashboard v Tableau.
Extra Sprint
Základy strojového učení
Seznamte se se základy strojového učení a seznamte se s hlavními úkoly strojového učení v podnikání.
PythonPandasSklearnStrojové učeníÚlohy strojového učení Algoritmy strojového učení
Extra Sprint
Procvičte si Python
Absolvujete několik laboratorních lekcí s doplňkovými úkoly v programovacím jazyce Python. Dozvíte se také, jak extrahovat data z webových zdrojů.
Budeš:
• ve struktuře HTML stránek a provozu požadavků GET,
• naučit se psát jednoduché regulární výrazy,
• seznámit se s API a JSON,
• zadávat několik požadavků na stránky a shromažďovat data.
JSONPythonREST APIWeb scraping
13 sprint 3 týdny
Absolventský projekt
V posledním projektu potvrďte, že jste zvládli nové povolání. Vyjasněte úkol zákazníka a projděte všemi fázemi analýzy dat. Nyní nejsou žádné lekce ani domácí úkoly - vše je jako ve skutečné práci.
Závěrečný sprint zahrnuje práci na projektu, A/B testování a SQL úlohy a další úkol. Projekt obsahuje vyjádření problému, očekávaný výsledek, soubor dat a jejich popis.
Úkol se týká jedné z pěti oblastí podnikání:
• banky,
• maloobchodní,
• hry,
• mobilní aplikace,
• elektronický obchod.
V projektu nebude žádný obvyklý popis kroků. Propracujete se k nim sami.
SQ LPython PandasTableau Dashboards Postgre SQL Decomposition A/B testování