V tomto návodu se podíváme na to, jaké funkce Mage.ai nabízí pro analýzu dat. Tento nástroj slouží primárně pro ETL pipelines, nicméně obsahuje i funkce pro explorační analýzy, datové přehledy (templates) a grafy (charts). Pomocí těchto funkcí je možné prvotní analýzu zdrojů dělat celkem pohodlně přímo z nástroje. Mage nabízí široké možnosti předdefinovaných analytických funkci nad daty takže není potřeba je psát ručně.
Analýza dat, testování, vizualizace a explorace v Mage.ai – jak a proč?
Před datovými integracemi je nutné data podrobit analýze z hlediska úplnnosti a bezchybnosti. Na základě této analýzy následně provádíme datové čištění, případně další opatření která vedou ke zlepšení datové kvality daného zdroje dat. Nebudeme přece stahovat špinavá data!
Každá vizualizace (graf, přehled, atd.) se váže k nějakému objektu (typicky bloku) s tím, že sama o sobě je vizualizace uložena v python souboru. Soubory s grafy najdeme ve složce charts (viz screenshot). Tato složka je zatím prázdná, protože žádný graf nemáme.
Typy grafů a datových přehledů v Mage-ai s příkladem
Zkusimé si nějaké prvky vytvořit. Zdrojem pro nás bude databáze Adventureworks a tabulka Salesorderdetail. To, jak vytvořit ETL pipeline máme pořešeno v návodu ETL | Mage.ai Pipeline – Data load – Python, SQL Server.
V Mage máme na výběr z poměrně velké škály předdefinovaných vizualizací:
- Grafy: Skupina která slouží k vizuální reprezentaci dat – například četnosti (histogram) nebo vývoj nějakého trendu v čase (analýza)
- Barchart
- Histogram
- Line chart
- a další
- Templates: Tato skupina slouží k exploraci dat, analýze datové kvality a popisné statistice
- % of missing values (identifikace null hodnot přes sloupce
- unique values – průzkum redundance
- most frequent values – nejfrekventovanější hodnoty
- summary – vrátí základní statistiky – počet řádků ,sloupců atd
Náhledy na předdefinované grafy a templates
Níže najdete pár náhledů na předchystané vizualizace, které je možné následně urpvaovat přes Python.
A) Line chart
B) Popisná statistika každého sloupce (missing, min, max, unique,mean, median,mode)
C) Table summary and missing values (NULL) analysis
D) Table unique values analysis of columns
E) Most frequent values in salesorder detail table