V tomto návodu se podíváme na to, jaké funkce Mage.ai nabízí pro analýzu dat. Tento nástroj slouží primárně pro ETL pipelines, nicméně obsahuje i funkce pro explorační analýzy, datové přehledy (templates) a grafy (charts). Pomocí těchto funkcí je možné prvotní analýzu zdrojů dělat celkem pohodlně přímo z nástroje. Mage nabízí široké možnosti předdefinovaných analytických funkci nad daty takže není potřeba je psát ručně.

Analýza dat, testování, vizualizace a explorace v Mage.ai – jak a proč?

Před datovými integracemi je nutné data podrobit analýze z hlediska úplnnosti a bezchybnosti. Na základě této analýzy následně provádíme datové čištění, případně další opatření která vedou ke zlepšení datové kvality daného zdroje dat. Nebudeme přece stahovat špinavá data!

Každá vizualizace (graf, přehled, atd.) se váže k nějakému objektu (typicky bloku) s tím, že sama o sobě je vizualizace uložena v python souboru. Soubory s grafy najdeme ve složce charts (viz screenshot). Tato složka je zatím prázdná, protože žádný graf nemáme.

mage-ai charts

Typy grafů a datových přehledů v Mage-ai s příkladem

Zkusimé si nějaké prvky vytvořit. Zdrojem pro nás bude databáze Adventureworks a tabulka Salesorderdetail. To, jak vytvořit ETL pipeline máme pořešeno v návodu ETL | Mage.ai Pipeline – Data load – Python, SQL Server.

V Mage máme na výběr z poměrně velké škály předdefinovaných vizualizací:

  1. Grafy: Skupina která slouží k vizuální reprezentaci dat – například četnosti (histogram) nebo vývoj nějakého trendu v čase (analýza)
    • Barchart
    • Histogram
    • Line chart
    • a další
  2. Templates: Tato skupina slouží k exploraci dat, analýze datové kvality a popisné statistice
    • % of missing values (identifikace null hodnot přes sloupce
    • unique values – průzkum redundance
    • most frequent values – nejfrekventovanější hodnoty
    • summary – vrátí základní statistiky – počet řádků ,sloupců atd

Náhledy na předdefinované grafy a templates

Níže najdete pár náhledů na předchystané vizualizace, které je možné následně urpvaovat přes Python.

A) Line chart

mage.ai line chart

B) Popisná statistika každého sloupce (missing, min, max, unique,mean, median,mode)

mage descriptive database table statistics

C) Table summary and missing values (NULL) analysis

mage analysis - summary and missing values in table

D) Table unique values analysis of columns

mage unique values analysis database table

E) Most frequent values in salesorder detail table

Rate this post

Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako freelancer. Pracoval jsem dříve také jako BI developer, finanční controller a analytik. Vše pro společnosti z oblasti IT, bankovnictví, consultingu a výroby. Po práci si rád zahraju tenis, volejbal, šachy, zajdu do posilovny a občas neúspěšně odpálím pár balónků v golfu 🏌️

Již cca 10 let zapisuji na tento web různé návody určené zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Business intelligence, korporátních financí a reportingu.

🔥 Přihlašte se do naší Excel facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse »

Leave a Reply

Your email address will not be published. Required fields are marked *