ETL | Mage.ai – Grafy, Analýza, testování, datové přehledy, čištění

V tomto návodu se podíváme na to, jaké funkce Mage.ai nabízí pro analýzu dat. Tento nástroj slouží primárně pro ETL pipelines, nicméně obsahuje i funkce pro explorační analýzy, datové přehledy (templates) a grafy (charts). Pomocí těchto funkcí je možné prvotní analýzu zdrojů dělat celkem pohodlně přímo z nástroje. Mage nabízí široké možnosti předdefinovaných analytických funkci nad daty takže není potřeba je psát ručně.

Analýza dat, testování, vizualizace a explorace v Mage.ai – jak a proč?

Před datovými integracemi je nutné data podrobit analýze z hlediska úplnnosti a bezchybnosti. Na základě této analýzy následně provádíme datové čištění, případně další opatření která vedou ke zlepšení datové kvality daného zdroje dat. Nebudeme přece stahovat špinavá data!

Každá vizualizace (graf, přehled, atd.) se váže k nějakému objektu (typicky bloku) s tím, že sama o sobě je vizualizace uložena v python souboru. Soubory s grafy najdeme ve složce charts (viz screenshot). Tato složka je zatím prázdná, protože žádný graf nemáme.

mage-ai charts

Typy grafů a datových přehledů v Mage-ai s příkladem

Zkusimé si nějaké prvky vytvořit. Zdrojem pro nás bude databáze Adventureworks a tabulka Salesorderdetail. To, jak vytvořit ETL pipeline máme pořešeno v návodu ETL | Mage.ai Pipeline – Data load – Python, SQL Server.

V Mage máme na výběr z poměrně velké škály předdefinovaných vizualizací:

  1. Grafy: Skupina která slouží k vizuální reprezentaci dat – například četnosti (histogram) nebo vývoj nějakého trendu v čase (analýza)
    • Barchart
    • Histogram
    • Line chart
    • a další
  2. Templates: Tato skupina slouží k exploraci dat, analýze datové kvality a popisné statistice
    • % of missing values (identifikace null hodnot přes sloupce
    • unique values – průzkum redundance
    • most frequent values – nejfrekventovanější hodnoty
    • summary – vrátí základní statistiky – počet řádků ,sloupců atd

Náhledy na předdefinované grafy a templates

Níže najdete pár náhledů na předchystané vizualizace, které je možné následně urpvaovat přes Python.

A) Line chart

mage.ai line chart

B) Popisná statistika každého sloupce (missing, min, max, unique,mean, median,mode)

mage descriptive database table statistics

C) Table summary and missing values (NULL) analysis

mage analysis - summary and missing values in table

D) Table unique values analysis of columns

mage unique values analysis database table

E) Most frequent values in salesorder detail table

Rate this post
Rubrika: Mage AI - Návody a informace

O Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako data engineer freelancer. Během cca 10 let jsem zde shromáždil přes 600 IT case studies, průvodců, návodů a tipů určených zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Data Engineeringu, korporátních financí a reportingu. Zaměřuji se především na Microsoft technologie (on-prem i cloud) a různé synergické efekty v rámci jejich produktového portfolia pro dataře a finanční profesionály. Věnuji se také dalším platformám a významným hráčům z oblasti open source technologií. 🔥 Pokud vám tento článek pomohl, ocením referenci na vašem webu nebo zmínku v komunitě. A mám pro vás ještě tip: řešíte-li nějaký zapeklitý Excel problém, přihlašte se do naší Excel Facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse ».

Leave a Reply

Your email address will not be published. Required fields are marked *