Szkolenie

Data preparation & integration

Termin

Egzamin

Cena szkolenia

Cena egzaminu

Nie znalazłeś dogodnego terminu?
Szkolenie zapozna uczestników z technikami i technologiami integracji i transformacji danych na platformie Apache Hadoop. Zaprezentowane zostaną dostępne technologie pozwalające na integrację klastra Hadoop z innymi systemami w organizacji.  Podczas szkolenia przedstawione zostaną zagadnienia integracji klastra Hadoop z Hurtownią Danych: jakie dane powinny być utrzymywane w Hurtowni Danych a jakie na klastrze Big Data? Uczestnik pozna technologie: Hive, HDFS, Kafka, Cassandra, Redis, Spark

Adresaci szkolenia

  • Analitycy danych, programiści i projektanci,
  • Osoby odpowiadające za jakość i kompletność danych w organizacji

Materiały szkoleniowe

  • Wydruk prezentacji szkoleniowej
  • Komplet materiałów biurowych

Informacje dodatkowe

Czas trwania szkolenia: 2 dni
Wielkość grupy: 6- 12 osób

Akredytacja/ Podstawa merytoryczna

Szkolenie organizowane we współpracy z Sorigo

Materiały do pobrania

Warunki udziału w szkoleniach / egzaminach, instrukcje i formularze.

Zakres szkolenia

Szkolenie składa się z czterech bloków tematycznych:

Gromadzenie danych

  1. Przegląd technologii pobierania danych. Omówienie komponentów dostępu do różnych klas danych: CSV, XML, JSON, baza danych, strumień danych, dane o niskim poziomie strukturyzacji
  2. Praca z systemem plików HDFS
  3. Gromadzenie danych ogólnodostępnych (web crawling, parsowanie dokumentów PDF) za pomocą Apache Spark, przy wykorzystaniu bibliotek pySpark
  4. Metadane i zarządzanie źródłami danych; monitorowanie ładowania danych
  5. Zasady pracy z repozytorium GIT i SVN

Składowanie danych

  1. Przegląd technologii składowania danych. Wybór technologii składowania danych, zależnie od rodzaju danych i potrzeb analitycznych. Omówienie Hive, Redis, Cassandra.
  2. Klasy danych oraz techniki i technologie składowania danych: dane detaliczne, dane zagregowane, kalkulacje, słowniki, master data, metadane, dane w czasie rzeczywistym
  3. Optymalizacja składowania danych, w zależności od scenariuszy analitycznych.

Integracja danych

  1. Przegląd technologii integracji danych
  2. Zasady i techniki łączenia danych
  3. Projektowanie i implementacja agregatów oraz kalkulacji za pomocą Apache Spark
  4. Zarządzanie danymi w klastrze Hadoop: metadane, rekalkulacja za pomocą Oozie
  5. Monitorowanie jakości danych

Dane w czasie rzeczywistym

  1. Specyfikacja strumienia danych i zastosowanie Apache Kafka
  2. Integrowanie danych strumieniowych za pomocą Spark Streaming
  3. Proces analityczny dla danych w czasie rzeczywistym
  4. Implementacja aplikacji integrującej dane w czasie rzeczywistym
Formularz kontaktowy

Jeżeli nie znalazłeś dla siebie dogodnego terminu szkolenia, skontaktuj się z nami, a na pewno znajdziemy dla Ciebie satysfakcjonujące rozwiązanie.