Fabric | Data Factory, Pipelines, Konektory - Úvod do datových toků

Obsah

1. Role Fabric Data Factory v datové architektuře – Co to je a k čemu slouží

2. Datová Akvizice, Transformace, Orchestrace ve Fabricu

2.1. Fabric pipeline pro datové toky a orchestraci

2.2. Datová akvizice (ingestion) – pipelines a předdefinované konektory

2.3. Datová transformace do Silver a Gold – Notebooky, SQL, Python, dbt

3. Shrnutí a závěr – Provoz, řízení a přínos

Tento článek je určen především pro manažery, IT specialisty a technické decision makery, kteří se s Fabricem seznamují a uvažují o implementaci. Je také určen pro širokou odbornou veřejnost, která se s Fabricem seznamuje a pro vzdělávací účely. Text je zaměřen na principy fungování Fabric data factory, klíčové technické koncepty a praktické přínosy – detailní implementační postupy nejsou součástí – ty představuji v různých, specificky zaměřených článcích zde na webu. Seznam všech příspěvků o Fabricu strukturovaně a s kontextem najdete – Fabric | Úvod, Základní Pojmy a Architektura Microsoft Fabric – Proč je tak silný (OP)? a pak také nestrukturovaně v kategorii Microsoft Fabric.

Role Fabric Data Factory v datové architektuře – Co to je a k čemu slouží

Všechna data, se kterými datoví specialisté pracují, procházejí různými fázemi během zpracování. Nejprve je totiž musíme vytěžit ze zdrojových systému, následně zpracovat, vyčistit, zahistorizovat, navrhnout model pro uložení dat a nakonec odreportovat. Je proto důležité mít nějaký robustní nástroj pro práci. V celém procesu zpracování dat musíme navíc respektovat zásady bezpečnosti, data governance a udržitelnou, škálovatelnou architekturu aby nám to za pár let celé nespadlo na hlavu při rostoucím množství a komplexitě datového řešení.

Fabric Data Factory je nástroj určený pro datovou integraci a orchestraci datových procesů – slouží jako centrální data engineering vrstva, která zajišťuje datové toky , tedy:

Datová akvizice – příjem dat z různých zdrojových systémů do centrálního úložiště Onelake
Čištění dat, historizace, transformace a reporting – následně čištění a zpracování do dalších datových vrstev (Silver, Gold) a také předání do analytických a reportovacích vrstev (Power BI, aj)
Orchestrace výše uvedeného – umožňuje vytvořit řídíci prvky, které postupně a ve správném pořadí spouštějí různé úkoly – definujeme a řídíme, kdy, odkud a jakým způsobem jsou data zpracována.

Datová Akvizice, Transformace, Orchestrace ve Fabricu

Fabric Data Factory umožňuje integraci širokého spektra zdrojů dat, od relačních databází a souborových úložišť až po cloudové služby a aplikační rozhraní.

Fabric pipeline pro datové toky a orchestraci

Základním konceptem Fabricu jsou pipelines, které reprezentují řízené workflow. Vizuálně vypadá prostředí uživatelsky přívětivě. Drag and dropujete jednotlivé komponenty pipeline které zrovna potřebujete a vše je vizuální a low-code.

Pipeline funguje na podobném principu jako např SSIS balíček – je to množina nadefinovaných úkolů zabalená do 1 spustitelného objektu. Každá pipeline je spustitelná samostatně nebo může být spuštěna prostřednictvím jiné pipeline (to je základ orchestrace). Definuje:

Sekvenci kroků – např. načti metadata, stáhni data, ulož data
Vzájemné závislosti – co se má spustit a v jakém pořadí
Podmínky spuštění – podmínky na základě kterých se krok spustí nebo naopak nespustí
Chování v případě chyb – např. v případě chyby pustí další proces (např. pošle email)
Monitoring a log – každá pipeline má v pozadí logování

Fabric tak umožňuje budovat robustní datové procesy, které jsou snadno monitorovatelné, auditovatelné a opakovatelně spustitelné.

Poznámka: Pro datovou akvizici je možné využít i jiné možnosti – například nástroje třetích stran jako je např. Fivetran nebo nebo třeba Fabric notebooky, což jsou spustitelné objekty obsahující nějaký kód, který si napíšeme v Pythonu nebo SQL

Datová akvizice (ingestion) – pipelines a předdefinované konektory

Prvotní připojení ke zdrojům je možné realizovat pomocí předpřipravených konektorů, které abstrahují uživatele od technických detailů a kódování. Tyto konektory viz screenshot zajišťují akvizici dat ze zdrojových systémů, které si pak můžeme uložit třeba do Lakehouse nebo Data warehouse artefaktu a dále s nimi pracovat.

Datová transformace do Silver a Gold – Notebooky, SQL, Python, dbt

Mezi další úkoly datového inženýrství, které následují po datové akvizici (Bronze) patří vyčištění dat a jejich historizace do Silver vrstvy. To můžeme udělat různými technologickými řešeními, které Fabric podporuje. Záleží to hlavně na našich preferencích a na tom, jak máme vymyšlenou architekturu, např:

Fabric Notebooky – spustitelné objekty s nějakým kódem (python, sql)
dbt (Data build tool) – data můžeme načíst z lakehouse a zpracovat do Data warehouse artefaktu pomocí open source nástroje dbt – na webu mám mnoho článků s detailními postupy implementace – např Fabric | dbt – Jak Modeluju Dimenzní Gold Tabulky (SCD2) v Data Projektech?
Dataflow Gen2 – to je vizuální nástroj podobný Power Query, přes tkerý si můžete “naklikat” různé úpravy. Není tak flexibilní jako Notebooky nebo dbt a je tam vyšší spotřeba zaplacené fabric kapacity než u pipelines
SQL Procedury v DataWarehouse – pokud máme architekturu založenou na zpracování dat v DWH pres SQL, je možné využít i procedury
Externí nástroje

Shrnutí a závěr – Provoz, řízení a přínos

Důležitým aspektem Fabric Data Factory je monitoring. Každý běh pipeline je zalogován, což umožňuje sledovat stav zpracování, identifikovat chyby a analyzovat výkon jednotlivých kroků. Tyto informace jsou důležité pro stabilní provoz datové platformy a také pro její dlouhodobou výkonovou i nákladovou optimalizaci (optimalizace zátěže a kapacity fabricu).

Z pohledu organizace přináší Data Factory

standardizaci datových toků
centralizaci pod jednou střechou
snížení technické složitosti
škálovatelnost
lepší kontrolu nad tím, jak data v prostředí vznikají a jak jsou používána

Rate this post

Fabric | Data Factory, Pipelines, Konektory – Úvod do datových toků