Česká Keboola patří mezi cloudové služby poskytované jako SaaS – software as a service. Zde je poskytovanou službou datová platforma pro datové toky (pipelines) a úložiště. Dříve byly datové extrakce, transformace a importy – zkráceně ETL procesy doménou IT nebo BI specialistů, protože byly potřeba znalosti SW architektury, databází, programování a správných nástrojů. V Keboole si datové toky může bez bariér naklikat i člověk bez technických znalostí.
Úvod do Kebooly, návody
Keboola je cloudová služba, takže nepotřebujete nic instalovat. Služba funguje na Freemium modelu kdy můžete Keboolu používat zdarma s určitými omezeními, které vás ale pro vyzkoušení nebo menší projekt nebudou nijak výrazně omezovat. Podrobnosti na pricing stránce Kebooly.
Pro první seznámení doporučuju tyto zdroje
- ETL | Keboola – Úvod, Pricing, Produkty – Alternativa Fivetran – představení Kebooly
- Demo projekt Kebooly – ukázka projektu na webu poskytovatele služby. Jsou tam i nějaké základní interaktivní tutoriály
- Data | Demokratizace a data driven přístup – proč jsou tooly jako Keboola stále oblíbenější?
Na tomto webu najdete několik článků a návodů ke Keboole, které se detailně věnují některému z vybraných témat. K tomu, abyste si mohli vyzkoušet návody prakticky potřebujete pouze účet u Kebooly. Databázi AdventureWorks online máte k dispozici online- Moc díky sqlservercentral.com
- Díl 1 – ETL | Keboola Free (zdarma) – Vytvoření projektu, základy
- Díl 2 – ETL | Keboola – Data Flow návod – SQL Server do Google drive
- Díl 3 – ETL | Keboola Free – Komponenty, Typy, Bezpečnost
- Díl 4 – ETL | Keboola Free – Úložiště souborů, limit, tokeny, IN/OUT
- Díl 5 – ETL | Keboola – Transformace (Snowflake), Refresh Power BI Reportu
Srovnání Keboola Freemium s alternativou Fivetran Free
Keboola by se dala přirovnat z těch známějších nástrojů např. k Fivetranu – Challenger z Gartner reportu 2023. Oba tooly jsou dobré a nedá se podle mě říci, že je jeden výrazně v něčem lepší než druhý.
Celkové vyhodnocení Keboola vs Fivetran
Níže najdete kritéria srovnání co mě napadly. Je z toho vidět, že overall je to zhruba remíza a volba toho kterého nástroje závisí na konkrétních aktuálních a budoucích podmínkách právě u vás. Volil bych v závislosti na tom, co od nástroje očekávám cca takto (podrobněji jsem to rozepsal v další kapitole):
Fivetran: Máte datový sklad nebo lake onprem nebo v cloudu a ve skutečnosti potřebujete pouze dostat data z primárních systémů k vám a následně si děláte transformace a orchestrace na vlastní pěst třeba přes dbt, airflow nebo jinak.
Keboola: Pokud hledáte ETL/ELT tool a Snowflake ekosystém spíše než ETL průtokáč. Také bych Keboolu volil pokud očekáváte od služby i lepší orchestrační vlastnosti, možnost dělat transformace přímo v Keboole a možnost si tyto transformace nakódit v SQL/Python workspace. Možnost psát si vlastní komponenty a mnoho dalšího
Podrobnější vyhodnocení Keboola vs Fivetran
Rozdílů mezi Fivetranem a Keboolou je samozřejmě mnoho, pokusím se kvantifikovat ty nejzásadnější. Jedná se samozřejmě o můj subjektivní názor.
- (Remíza) Easy to use – Obě platformy jsou user friendly, nastavení datových komponent je jednoduché.
- (Remíza) Support – uživatelská podpora je řekl bych na vysoké úrovni u obou
- (Remíza) Bezpečnost – Obě platformy nabízejí zabezpečená připojení a různé možnosti autorizace na cloudové služby přes vestavěné konektory (Oauth, SSH, certifikáty, tokeny)
- (Remíza) Obě platformy nabízejí široké možnosti identifikace incrementu a volby způsobu ukládání (replace, increment atd) a nastavení metadat u tabulek
- (Prohra) Keboola má pricing dle minutáže, kdežto Fivetran od MAR (monthly active rows).
- Ve Freemium modelu Kebooly máte k dispozici 60 minut, které poměrně rychle spotřebujete neboť má Keboola celkem velké režie na zpracování. Tento model Kebooly je celkem logický, protože extenzivně u každé komponenty využívá Snowflake jako backend (computing náklady).
- Oproti tomu Fivetran nezajímá jak dlouho vám to běží a účtuje vám řádky – máte zdarma 500 000 řádků/měsíc. Dost často teda máte pro menší projekty ELT tool zadarmo.
- (Prohra) Keboola je při mém testování línější při zpracování dat u malých tabulek, což v kombinaci s pricingem na minutáž a většího počtu menších tabulek může způsobit zvýšené náklady. Testoval jsem cca 8 tabulek s celkem cca 20 000 řádků a Flow ze SQL server databáze do Keboola storage jede cca 4-5 minuty (2 komponenty). To se mi zdá dost. Na druhou stranu určitě neplatí, že vztah mezi počtem záznamů a dobou běhu je lineární, takže doporučuju otestovat na vašem scénáři.
- (Výhra) Keboola je ETL/Data platforma ekosystém koexistující se Snowflake a řadou dalších platforem.
- Keboola tedy nabízí všestrannost pro širší spektrum uživatelů – nástroje jak pro laiky (netechnické uživatele), tak pro profíky (python, api, R a podobně).
- Fivetran je spíše orientován jako průtokový ohřívač – vezme Data Source – Destination, doručí data a tím to končí. Je tedy ve všestranosti omezenější, ale na druhou stranu má perfektně zvládnutou ELT část a vše je bleskurychlé.
- (Výhra) Orchestrační funkce – Kebola má určité možnosti orchestrování. Určitě nechci Keboolu srovnávat s tooly typu Airflow, Dagster, Mage.ai a podobně, ale Kebola si poradí s většinou scénářů vyžadující orchestraci flows na úrovni aplikace. Navíc v rámci Keboola flows nejsme omezeni pouze na komponenty v aplikaci, ale umíme věci třeba jako:
- Volat SQL Server procedury (typicky chceme napočítat sémantickou vrstvu poté co stáhnem raw data)
- Refreshovat Power bi reporty (chceme refreshnout reporty poté co napočítáme sémantickou vrstvu a datasety)
- Něco triggerovat přes api
- a další