Szkolenie zapozna uczestników z technikami i technologiami integracji i transformacji danych na platformie Apache Hadoop. Zaprezentowane zostaną dostępne technologie pozwalające na integrację klastra Hadoop z innymi systemami w organizacji. Podczas szkolenia przedstawione zostaną zagadnienia integracji klastra Hadoop z Hurtownią Danych: jakie dane powinny być utrzymywane w Hurtowni Danych a jakie na klastrze Big Data?
Uczestnik pozna technologie: Hive, HDFS, Kafka, Cassandra, Redis, Spark
Adresaci szkolenia
- Analitycy danych, programiści i projektanci,
- Osoby odpowiadające za jakość i kompletność danych w organizacji
Materiały szkoleniowe
- Wydruk prezentacji szkoleniowej
- Komplet materiałów biurowych
Informacje dodatkowe
Czas trwania szkolenia: 2 dni
Wielkość grupy: 6- 12 osób
Akredytacja/ Podstawa merytoryczna
Szkolenie organizowane we współpracy z Sorigo
Materiały do pobrania
Warunki udziału w szkoleniach / egzaminach, instrukcje i formularze.
Zakres szkolenia
Szkolenie składa się z czterech bloków tematycznych:
Gromadzenie danych
- Przegląd technologii pobierania danych. Omówienie komponentów dostępu do różnych klas danych: CSV, XML, JSON, baza danych, strumień danych, dane o niskim poziomie strukturyzacji
- Praca z systemem plików HDFS
- Gromadzenie danych ogólnodostępnych (web crawling, parsowanie dokumentów PDF) za pomocą Apache Spark, przy wykorzystaniu bibliotek pySpark
- Metadane i zarządzanie źródłami danych; monitorowanie ładowania danych
- Zasady pracy z repozytorium GIT i SVN
Składowanie danych
- Przegląd technologii składowania danych. Wybór technologii składowania danych, zależnie od rodzaju danych i potrzeb analitycznych. Omówienie Hive, Redis, Cassandra.
- Klasy danych oraz techniki i technologie składowania danych: dane detaliczne, dane zagregowane, kalkulacje, słowniki, master data, metadane, dane w czasie rzeczywistym
- Optymalizacja składowania danych, w zależności od scenariuszy analitycznych.
Integracja danych
- Przegląd technologii integracji danych
- Zasady i techniki łączenia danych
- Projektowanie i implementacja agregatów oraz kalkulacji za pomocą Apache Spark
- Zarządzanie danymi w klastrze Hadoop: metadane, rekalkulacja za pomocą Oozie
- Monitorowanie jakości danych
Dane w czasie rzeczywistym
- Specyfikacja strumienia danych i zastosowanie Apache Kafka
- Integrowanie danych strumieniowych za pomocą Spark Streaming
- Proces analityczny dla danych w czasie rzeczywistym
- Implementacja aplikacji integrującej dane w czasie rzeczywistym