Archív rubriky: Dbt (data build tool)

dbt je open-source nástroj pro data engineering, který umožňuje transformaci dat v data warehouse/datamart prostředích. Dále umožňuje automatické historizační procesy SCD 2 (změny nad tabulkou) a orchestraci – závislosti mezi skripty řeší automaticky pomocí referencí.

Poslední články z kategorie:

Ukázka dbt GitHub projektu – Datový sklad/datamart

Na GitHubu mám veřejný projekt. Projekt i s popisem najdete na stránce s repozitářem – Sample Data warehouse | Datamart (Data Engineering project). Je to dbt projekt, který má za úkol ztransformovat vstupní data (ze zdrojových systémů) do star schématu faktové a dimenzních tabulek. SQL kódy naleznete v adresáři model/marts/sales.

Fabric | dbt – Konfigurace profiles.yml pro SPN Autentizaci k SQL Endpointu

Tento článek popisuje postup konfigurace souboru profiles.yml v rámci nástroje dbt pro správné připojení k Microsoft Fabric SQL Endpointu s využitím autentizace pomocí Service Principal (SPN), kterou jsme si založili v tomto článku – Fabric | dbt – Azure Service Principal (SPN) a RBAC pro dbt. Cílem je zajistit bezpečné a automatizované spojení mezi dbt… Čtěte více »

Fabric | dbt – Docker dbt kontejner a Azure Container Apps (CI/CD)

Pro Warehouse postavený v cloudu nad MS Fabricem máme připraveno prostředí Lakehousu a DWH a máme taky kromě jiného připraven a nakonfigurován dbt projekt. Nyní nastává důležitá fáze DataOps: Musíme se zamyslet nad tím, Z jakého prostředí (ideálně serverless) budeme v budoucnu dbt projekt dávkově spouštět. Jak implementovat proces Kontinuální Integrace a Kontinuálního Doručování (CI/CD),… Čtěte více »

Fabric | dbt – Vytvoření Fabric Lakehouse/Data Warehouse a Konfigurace

Microsoft Fabric je sjednocená datová platforma, která propojuje různé artefakty (funkcionality Fabricu) pro vývoj datových řešení, analytiky a BI v jednom integrovaném prostředí. Klíčovými komponentami jsou Fabric Lakehouse a Fabric Data Warehouse. Tento článek popisuje proces vytvoření Fabric Lakehouse/Warehouse, konfiguraci a následnou integraci s dbt. Upozornění na dbt-fabric adapter Dbt adapter pro Microsoft Fabric (dbt-fabric)… Čtěte více »

Fabric | dbt – Architektura a Role dbt v Medailonové Architektuře

Microsoft Fabric představuje sjednocenou SaaS platformu, která integruje komponenty tzv. moderního datového skladu. V rámci jedné platformy je tak možné pořešit ukládání přes artefakty (Lakehouse/DWH), výpočetní prostředky (Spark/Polaris) a nástroje pro orchestraci datových toků. Fabric architektura poskytuje také nástroje pro transformační část (třeba spark), které lze napsat a následně orchestrovat v rámci Fabricu jako takového.… Čtěte více »

ETL | Dbt souborová struktura a nastavení dbt_project.yml

V Dbt (data build tools) jsou soubory organizovány v logické struktuře. Abychom se v projektu dlouhodobě vyznali při rostoucím množství kódu, je vhodné si v souborech udělat určitý systém. Souborová struktura dbt projektu Po inicializaci prázdného dbt dostaneme adresářovou strukturu viz níže. Root je náš dbt projekt. Uvnitř najdeme konfigurační soubory dbt_project.yml a dbt_profiles.yml a… Čtěte více »

ETL | Dbt core a Snowflake – Nastavení a dbt debug

Jde dohromady Dbt a Snowflake? Jasně na pohodu a pokud to ještě zabalíte do nějakého ETL/orchestračního nástroje jako například Keboola (cloud) nebo Mage.ai (onprem) tak máte slušnou data mlátičku. Dnes už většina ETL frameworků (alespoň těch lepších) s dbt počítá. Lokální konfigurace Dbt a Snowflake V tomto tutoriálu počítáme s tím, že dbt máme lokálně… Čtěte více »

ETL | Mage.ai instalace přes Docker – dbtsqlserver – Chyba Dbt debug, oprava

Dnes jsem se pokoušel v rámci seznamování s Mage.ai provést instalaci přes Docker, protože momentálně (2024-01-26) je to jediný scénář kdy je možné rozchodit Dbt společně s Mage.ai v rámci společných pipelines nativně (pokud neprovozujete Mage-ai přes Docker, tak žádný strach. Pouštět Db můžeme přes custom python bloky) Tento návod pokrývá i řešení chyby, která… Čtěte více »

ETL | Mage.ai Dbt debug – Nastavení a test databáze SQL Server (profiles.yml) – Windows

Minulý článek byl zaměřen na instalaci dbt do prostředí Mage.ai anebo samostatně a následnou inicializaci projektu nazvaného mage_dbt – Instalace Dbt (pip/conda) a inicializace projektu. Máme tedy nainstalovaný environment mage-ai do kterého jsme nainstalovali dbt-sqlserver. Následně jsme otestovali, že vidíme založenou souborovou strukturu projektu. Dneska se podíváme na to, jak provést konfiguraci a nastavení Dbt.… Čtěte více »

ETL | Mage.ai – Instalace Dbt (pip/conda) a inicializace projektu

V minulém článku – ETL | Mage.ai – odlehčenější důstojná alternativa za Airflow – seznámení a instalace jsme si udělali menší představení ETL nástroje Mage.ai jako odlehčenější alternativy k Apache Airflow. Ukázali jsme si jak framework rozchodit přes terminál a víme, že po instalaci fungujeme na localhost:6790/. Sliboval jsem v dalším článku naši první integraci, ale… Čtěte více »