Archív

Delta Lake – co to je a k čemu se používá

Delta Lake je open-source formát rozšiřující Parquet soubory (columnar format – sloupcové uložení dat) o transakční log, který zajišťuje ACID transakce nad datovými soubory. Umožňuje time-travel dotazy (přes SCD 2 – Slowly changing dimension), verzování, merge operace a spolehlivé dávkové i streamové zpracování. Díky tomu je vhodný jako základ pro data lakehouse architekturu v Databricks… Čtěte více »

Rubrika:

Dimenze – kontext pro fakta v datovém skladu

Dimenze je pojem, který se používá zejména v souvislosti s datovými sklady. Je to soubor dat, které pomáhají popsat události, které se nazývaji Fakta. Fakta a Dimenze tvoří základní káměn datových skladů a spolu usnadňují vyhledávání informací. Jejich architektura se tvoří v rámci datového modelu. Faktové a dimenzní tabulky by spolu měly tvořit určité schéma,… Čtěte více »

Rubrika:

Drill Through

Provrtat je funkce dolování dat software. Na rozdíl od vrtat a vrtat dolů, které se pohybují přes databázi vertikálně, rozšiřování a zaměřit se na úroveň detailů k prohlížení dat na různých úrovních, provrtat se pohybuje horizontálně prostřednictvím databáze. S provrtat schopnostmi, dolování dat software poskytuje pohled na související soubory a datové prvky.

Rubrika:

ETL vs ELT – hlavní rozdíly?

ETL (Extract–Transform–Load) provádí transformace ještě před uložením do cílového systému, což je typické pro tradiční on-premise datové sklady. ELT (Extract–Load–Transform) napřed data uloží do úložiště a až poté je transformuje pomocí výkonu databáze či lakehouse. Cloudové platformy (Snowflake, Fabric, aj) preferují ELT pro lepší škálování a rychlost.

Rubrika: