Archív rubriky: Fabric

Microsoft Fabric je pokročilá datová platforma navržená pro efektivní správu, integraci a analýzu firemních dat. Umožňuje centralizovat data z různých zdrojů, zajistit jejich kvalitu a zpřístupnit je pro analytické i provozní účely. Úvodní informace do MS Fabric najdete – Fabric | Úvod, Základní Pojmy a Architektura Microsoft Fabric – Proč je tak silný (OP)?

Fabric poskytuje v rámci pricing plánu mnoho datových komponent do jednoho řešení – zahrnuje datové lakehouse úložiště, datový sklad, nástroje pro ETL/ELT procesy, správu metadat, datovou katalogizaci, řízení přístupů i podporu pro tvorbu datových modelů a analytických workspace prostředí, např:

  • Datové toky (pipelines) a dataflows
  • Notebooky (PySpark, SparkR, SparkSQL, Scala)
  • Data Lakehouse (spravované přes notebooky)
  • Data warehouses (spravované přes T-SQL)
  • Fabric SQL Databases – něco jako Azure SQL
  • Native support for all Azure resources within the same tenant using managed identity (Storage, ADF, Container apps,..)
  • Daší funkcionality

Poslední články z kategorie:

Fabric | Úvod, Základní Pojmy a Architektura Microsoft Fabric – Proč je tak silný (OP)?

Tento článek slouží jako základní seznámení s MS Fabricem a jako zdroj pro základní evaluaci tohoto nástroje. Slouží také jako rozcestník na další články, ve kterých se jednotlivým pojmům a tématům věnuju podrobněji. Cílovou skupinou jsou lidé uvažující o možnosti si Fabric vyzkoušet nebo implementovat do své firmy. Microsoft Fabric je moderní analytická platforma typu… Čtěte více »

Fabric | Data Factory, Pipelines, Konektory – Úvod do datových toků

Tento článek je určen především pro manažery, IT specialisty a technické decision makery, kteří se s Fabricem seznamují a uvažují o implementaci. Je také určen pro širokou odbornou veřejnost, která se s Fabricem seznamuje a pro vzdělávací účely.  Text je zaměřen na principy fungování Fabric data factory, klíčové technické koncepty a praktické přínosy – detailní… Čtěte více »

Hromadný Import Tabulek v Microsoft Fabric pomocí for Each kontejneru a json config souboru

Tento článek je technickým návodem, jak ve Fabric Data Factory (nebo Azure data factory) realizovat hromadný import tabulek pomocí jediné pipeline pomocí ForEach kontejneru a externího JSON konfiguračního souboru Tento postup umožňuje snadné přidávání, odebírání i úpravu tabulek bez změn samotné pipeline. V json souboru si můžeme nastavit spoustu užitečných nastavení, které následně můžeme spravovat… Čtěte více »

Fabric – Bronze: Datová Akvizice do Delta Tabulek přes pipeline (notebook)

V několika předchozích článcích jsem řešil jak nastavit ADLS Gen2 pro ukládání zdrojových .parquet dat a také jak si přes shorcut ADLS gen 2 propojit přímo s Fabric Lakehouse. Pro shrnutí – ve Fabric prostředí tedy máme připraven Bronze Lakehouse a v tomto lakehousu máme vytvořené propojení na parquet data. Nyní je čas na to… Čtěte více »

Fabric – ADLS Gen2 a Parquet – Nastavení Úložiště a Formát Bronze Dat

V datové architektuře založené na medailonovém přístupu (Medallion Architecture) představuje Bronze vrstva první stupeň zpracování dat – sem přicházejí surová, minimálně transformovaná data z různých zdrojových systémů. V sérii článků o Fabricu implementujeme datové řešení, kde je Bronze vrstva realizována jako Lakehouse ve Fabricu ve formě delta tabulek a Silver/Gold vrstva jako Data Warehouse plněný… Čtěte více »

Fabric | dbt – Jak Modeluju Dimenzní Gold Tabulky (SCD2) v Data Projektech?

V předchozím článku – Fabric | dbt – Slowly changing dimension (SCD 2) – Snapshots a Check Strategie v dbt s příkladem jsme si ukázali, jak v prostředí Fabric a pomocí nástroje dbt implementovat historizaci dimenzních dat v Silver medailonu prostřednictvím snapshotů. Tyto snapshoty máme připraveny a zajišťují nám kompletní historii změn dimenzí (pomocí atributů valid_from… Čtěte více »

Fabric – Workspace a Task Flow – Organizace procesů a artefaktů (itemů), domény

V rámci série článků o platformě Microsoft Fabric se věnujeme různým funkcím a artefaktům tohoto prostředí pro práci s daty, které pokrývá oblasti datové akvizice (ingest), transformace, analytiky a správy datových produktů pro efektivní a bezpečný vývoj, orchestraci a provoz datových řešení v rámci jednoho integrovaného ekosystému. Základními artefakty, se kterými bychom se určitě měli… Čtěte více »

Fabric | dbt – Slowly changing dimension (SCD 2) – Snapshots a Check Strategie v dbt s příkladem

Slowly Changing Dimensions (SCD) představují způsob, jak v datovém skladu uchovávat a spravovat historické změny dimenzí v čase. Pro zopakování teorie co jsou to fakta a dimenze doporučuju před dalším pokračováním prolítnout článek – Fakta a dimenze – Tabulky v datovém skladu. V kontextu medailonové architektury, ve které pracujeme ve Fabricu, spadá generování SCD do… Čtěte více »

Fabric – Pipeline a Key Vault pro bezpečné předání Secretů (riziko kompromitace SecureString)

Ve Fabricu se pro automatizaci datových toků běžně používají Pipelines. Ty často potřebují předávat autentizační údaje, například API klíče nebo hesla (tzv. secrets), do notebooků, které vykonají nějaký kód. I když platforma umožňuje “bezpečné” uložení těchto hodnot v rámci Pipeline v typu SecureString, samotné předání do runtime prostředí Notebooku představuje určité riziko, pokud není správně… Čtěte více »

Fabric – Azure Service Principal (SPN) a RBAC pro dbt v Entra ID

Aby bylo možné využít autentizaci Azure Service Principal, je nutné nejprve vytvořit aplikaci a její přihlašovací údaje v Entra ID (původně Azure Active Directory). Tuto metodu authentikace následně budeme potřebovat pro správné nastavení konfiguračního souboru profiles.yml pro připojení k Fabricu, kterou řešíme v článku – Fabric | dbt – Konfigurace profiles.yml pro SPN Autentizaci k… Čtěte více »