ETL | Keboola Free (zdarma) - Vytvoření projektu, základy

5.2.2024
Ing. Jan Zedníček - Data Engineer & Controlling
Keboola - Návody a informace
0

Obsah a struktura článku

1. Keboola Free – jak vytvořit účet a projekt?

2. Struktura Kebooly – Menu, dashboard, komponenty, storage, jobs, aj.

2.1. Dashboard – vše podstatné na jednom místě

2.2. Flows – Data flows/pipelines/datové toky v Keboole

2.3. Komponenty (components) – datové zdroje a destinace v Keboole

2.4. Templates – předpřipravená data flows v Keboole

2.5. Storage buckets (omezení 250 GB) v Keboole

2.6. Transformations – transformační úlohy v data flows

2.7. Keboola testovací vs produkční environment

2.8. Workspaces v Keboole

V předchozím článku jsme si udělali menší úvod- ETL | Keboola – Úvod, Pricing, Produkty – Alternativa Fivetran. Víme, že Keboola nabízí Freemium model, takže si můžeme tento nástroj vyzkoušet zdarma. Budeme muset pouze strpět limitace co se týče používání (limit počtu minut je 120). Podíváme se, jak vypadá prostředí v aplikaci a seznámíme se s demo projektem, což je určitá forma tutoriálu, kterým Keboola zaškoluje nové uživatele na reálných příkladech.

Keboola Free – jak vytvořit účet a projekt?

Keboola má dovovskou stránku – https://www.keboola.com. Nejprve se zaregistrujte pakliže ještě účet nemáte

Po registraci klikneme na Start Free Project a Keboola nás provede založením nového projektu. Před založení projektu dostaneme možnost dostat školení (pokud chceme) v podobě

Demo projektu – demo projekt je možné proklikat bez nutnosti registrace
Edukačního videa
Můžete požádat o hovor se zástupcem Kebooly, který vám aplikaci předvede

Pokud nechceme, tak se se vrátíme o krok dozadu a necháme se přesměrovat rovnou do aplikace. Defaultní stránka po přihlášení je dashboard našeho projektu.

Struktura Kebooly – Menu, dashboard, komponenty, storage, jobs, aj.

Jak jsem již poznamenal, dashboard je defaultní page kam se dostaneme.

Dashboard – vše podstatné na jednom místě

Na dashboardu vidíme všechny základní charakteristiky našeho projektu zejména:

Přehled storage (zabrané místo na Keboola disku) – kapacita k dispozici ve free plánu je až 250 GB
Přehled volných minut – ve free plánu máme 120 minut první měsíc a pak dalších 60 minut každý měsíc.

120 minut je dostatečná doba na hraní, případně iniciální nastavení menšího projektu. Já jsem během této doby stihnul nastavit 3 flows (pipelines), které mi odčerpaly při testování cca 30 minut. Zbytek doby mi vzal Python workspace, u kterého jsem nevěděl, že mi odčerpává minuty, takže jsem si musel dokoupit minuty, abych mohl pokračovat v testování.

Flows – Data flows/pipelines/datové toky v Keboole

Položka v menu flows obsahuje všechny datové toky nebo pipelines v (Keboole to nazýváme Flows). Datové flow se skládá z komponent (components). Jak vidíme na screenshotu dole, mám již vytvořeny 3 flows. Jednotlivá flows lze ukládat do adresářové struktury. Vidíme, že máme k data flows i nějaké základní charakteristiky

Scheduled – jestli je data flow naplánováno na pravidelné běhy
Last change – datum poslední změny
Run results – jak dopadlo posledních 10 spuštění flow
Last use – kdy bylo naposledy spuštěno flow

Pokud kliknu na nějaké flow, tak mě to zavede do detailu data flow kde máme nadefinované komponenty (viz dále) na naše datové zdroje a destinace a vazby mezi nimi. V případě data flow nazvaného AdventureWorks to vypadá viz níže.

Podrobnější informace o flows viz článek – ETL | Keboola – Data Flow návod – SQL Server do Google drive

Komponenty (components) – datové zdroje a destinace v Keboole

Na stránce s komponentami (components) vidíme všechny konfigurace na datové zdroje a destinace. Komponenty jsou bloky, ze kterých se skládá kromě jiného flow. Flow může obsahovat i jiné bloky – např. transformace, ale mělo by obsahovat vždy komponentu typu a) zdroj – source a b) cíl – destination.

Jak vidíte, tak já mám pár komponent již nadefinovaných – Google analytics, One drive, aj. Každou komponentu je potřeba nakonfigurovat – to je říct jí kam vede (na můj účet google analytics apoid). Tento proces je ale s Keboolou velmi jednoduchý, protože Keboola obsahuje přes 200 (free účet) předdefinovaných komponent na různé systémy.

Pokud bychom kliknuli na Add component (přidat komponentu), tak nás aplikace zavede do rozhraní kde si můžeme vybrat z velkého množství komponent. Poté co si komponenty nastavíme, můžeme je přiřadit do flow.

Templates – předpřipravená data flows v Keboole

V této sekci najdeme předdefinované flows. Pokud klikneme na nějaký template, tak se nám otevře nastavení flow, dke je ptořeba povyplňovat konfiguraci. Vyzkouším v nějakém dalším článku.

Storage buckets (omezení 250 GB) v Keboole

Další stránka je zajímavější. Na karte storage vidíme naše soubory, které jsou umístěny do buckets což jsou kontejnery nebo úložiště pro soubory. Máme v zásadě 2 typy bucketů v Keboole a to jsou

IN bucket/soubor – zde se ukládají soubory jako výsledek extrakcí
OUT bucket/soubor – zde se ukládají soubory jako výsledek transformací – data která vstupují do transformací jsou typu IN a co dostaneme ven je OUT

V každém bucketu jsou soubory:

Každý soubor má svoji stránku s náhledem na data, statistiky a charakteristiky. Na storage uděláme separátní článek.

Transformations – transformační úlohy v data flows

Na stránce transformace evidujeme další skupinu bloků, ze kterých je možné skládat flow. Jak jsem již psal, ve flow je potřeba mít povinně a) source b) destination. Někdy ale chceme data před uložením do cílového úložiště transformovat a to se dělá právě tady

Pokud chceme založit novou transformaci, tak klikneme na Create transformation a transformaci vytvořime podle toho co je nám milejší

Python
R
Snowflake
No-code
dbt-core transformation

Keboola testovací vs produkční environment

V Keboole můžeme vytvořit více různých prostředí (typicky pro testovací účely). V horní části obrazovky máme možnost kliknout na “New development branch”

Workspaces v Keboole

Poslední sekcí v menu jsou workspaces, kdy se nám po založení vytvoří prostředí dle výběru. Pozor na vytváření Python a R workspaces pro testovací účely – viz varování na screenshotu. Tyto prostředí jsou zpoplatněna a po dobu aktivity vám budou strhávat minuty.

Na výběr máme ze 3 typů – Python, R a snowflake.

5/5 - (1 vote)

Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako freelancer. Pracoval jsem dříve také jako BI developer, finanční controller a analytik. Vše pro společnosti z oblasti IT, bankovnictví, consultingu a výroby. Po práci si rád zahraju tenis, volejbal, šachy, zajdu do posilovny a občas neúspěšně odpálím pár balónků v golfu 🏌️

Již cca 10 let zapisuji na tento web různé návody určené zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Business intelligence, korporátních financí a reportingu.

🔥 Přihlašte se do naší Excel facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse »

Jan Zedníček – Data & Finance