Fabric | Data Factory, Pipelines, Konektory – Úvod do datových toků

Tento článek je určen především pro manažery, IT specialisty a technické decision makery, kteří se s Fabricem seznamují a uvažují o implementaci. Je také určen pro širokou odbornou veřejnost, která se s Fabricem seznamuje a pro vzdělávací účely.  Text je zaměřen na principy fungování Fabric data factory, klíčové technické koncepty a praktické přínosy – detailní implementační postupy nejsou součástí – ty představuji v různých, specificky zaměřených článcích zde na webu. Seznam všech příspěvků o Fabricu strukturovaně a s kontextem najdete – Fabric | Úvod, Základní Pojmy a Architektura Microsoft Fabric – Proč je tak silný (OP)? a pak také nestrukturovaně v kategorii Microsoft Fabric.

Role Fabric Data Factory v datové architektuře – Co to je a k čemu slouží

Všechna data, se kterými datoví specialisté pracují, procházejí různými fázemi během zpracování. Nejprve je totiž musíme vytěžit ze zdrojových systému, následně zpracovat, vyčistit,  zahistorizovat, navrhnout model pro uložení dat a nakonec odreportovat. Je proto důležité mít nějaký robustní nástroj pro práci. V celém procesu zpracování dat musíme navíc respektovat zásady bezpečnosti, data governance a udržitelnou, škálovatelnou architekturu aby nám to za pár let celé nespadlo na hlavu při rostoucím množství a komplexitě datového řešení.

Fabric Data Factory je nástroj určený pro datovou integraci a orchestraci datových procesů – slouží jako centrální data engineering vrstva, která zajišťuje datové toky , tedy:

  • Datová akvizice – příjem dat z různých zdrojových systémů do centrálního úložiště Onelake
  • Čištění dat, historizace, transformace a reporting – následně čištění a zpracování do dalších datových vrstev (Silver, Gold) a také předání do analytických a reportovacích vrstev (Power BI, aj)
  • Orchestrace výše uvedeného – umožňuje vytvořit řídíci prvky, které postupně a ve správném pořadí spouštějí různé úkoly – definujeme a řídíme, kdy, odkud a jakým způsobem jsou data zpracována.

Datová Akvizice, Transformace, Orchestrace ve Fabricu

Fabric Data Factory umožňuje integraci širokého spektra zdrojů dat, od relačních databází a souborových úložišť až po cloudové služby a aplikační rozhraní.

Fabric pipeline pro datové toky a orchestraci

Základním konceptem Fabricu jsou pipelines, které reprezentují řízené workflow. Vizuálně vypadá prostředí uživatelsky přívětivě. Drag and dropujete jednotlivé komponenty pipeline které zrovna potřebujete a vše je vizuální a low-code.

pipeline-fabric-example

Pipeline funguje na podobném principu jako např SSIS balíček – je to množina nadefinovaných úkolů zabalená do 1 spustitelného objektu. Každá pipeline je spustitelná samostatně nebo může být spuštěna prostřednictvím jiné pipeline (to je základ orchestrace). Definuje:

  • Sekvenci kroků – např. načti metadata, stáhni data, ulož data
  • Vzájemné závislosti – co se má spustit a v jakém pořadí
  • Podmínky spuštění – podmínky na základě kterých se krok spustí nebo naopak nespustí
  • Chování v případě chyb – např. v případě chyby pustí další proces (např. pošle email)
  • Monitoring a log – každá pipeline má v pozadí logování

Fabric tak umožňuje budovat robustní datové procesy, které jsou snadno monitorovatelné, auditovatelné a opakovatelně spustitelné.

Poznámka: Pro datovou akvizici je možné využít i jiné možnosti – například nástroje třetích stran jako je např. Fivetran nebo nebo třeba Fabric notebooky, což jsou spustitelné objekty obsahující nějaký kód, který si napíšeme v Pythonu nebo SQL

Datová akvizice (ingestion) – pipelines a předdefinované konektory

Prvotní připojení ke zdrojům je možné realizovat pomocí předpřipravených konektorů, které abstrahují uživatele od technických detailů a kódování. Tyto konektory viz screenshot zajišťují akvizici dat ze zdrojových systémů, které si pak můžeme uložit třeba do Lakehouse nebo Data warehouse artefaktu a dále s nimi pracovat.

fabric-connectors-example

Datová transformace do Silver a Gold – Notebooky, SQL, Python, dbt

Mezi další úkoly datového inženýrství, které následují po datové akvizici (Bronze) patří vyčištění dat a jejich historizace do Silver vrstvy. To můžeme udělat různými technologickými řešeními, které Fabric podporuje. Záleží to hlavně na našich preferencích a na tom, jak máme vymyšlenou architekturu, např:

  • Fabric Notebooky – spustitelné objekty s nějakým kódem (python, sql)
  • dbt (Data build tool) – data můžeme načíst z lakehouse a zpracovat do Data warehouse artefaktu pomocí open source nástroje dbt – na webu mám mnoho článků s detailními postupy implementace – např Fabric | dbt – Jak Modeluju Dimenzní Gold Tabulky (SCD2) v Data Projektech?
  • Dataflow Gen2 – to je vizuální nástroj podobný Power Query, přes tkerý si můžete “naklikat” různé úpravy. Není tak flexibilní jako Notebooky nebo dbt a je tam vyšší spotřeba  zaplacené fabric kapacity než u pipelines
  • SQL Procedury v DataWarehouse – pokud máme architekturu založenou na zpracování dat v DWH pres SQL, je možné využít i procedury
  • Externí nástroje

Shrnutí a závěr – Provoz, řízení a přínos

Důležitým aspektem Fabric Data Factory je monitoring. Každý běh pipeline je zalogován, což umožňuje sledovat stav zpracování, identifikovat chyby a analyzovat výkon jednotlivých kroků. Tyto informace jsou důležité pro stabilní provoz datové platformy a také pro její dlouhodobou výkonovou i nákladovou optimalizaci (optimalizace zátěže a kapacity fabricu).

Z pohledu organizace přináší Data Factory

  • standardizaci datových toků
  • centralizaci pod jednou střechou
  • snížení technické složitosti
  • škálovatelnost
  • lepší kontrolu nad tím, jak data v prostředí vznikají a jak jsou používána
Rate this post
Rubrika: Fabric

O Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako data engineer freelancer. Během cca 10 let jsem zde shromáždil přes 600 IT case studies, průvodců, návodů a tipů určených zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Data Engineeringu, korporátních financí a reportingu. Zaměřuji se především na Microsoft technologie (on-prem i cloud) a různé synergické efekty v rámci jejich produktového portfolia pro dataře a finanční profesionály. Věnuji se také dalším platformám a významným hráčům z oblasti open source technologií. 🔥 Pokud vám tento článek pomohl, ocením referenci na vašem webu nebo zmínku v komunitě. A mám pro vás ještě tip: řešíte-li nějaký zapeklitý Excel problém, přihlašte se do naší Excel Facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse ».

Leave a Reply

Your email address will not be published. Required fields are marked *