Česká Keboola patří mezi cloudové služby poskytované jako SaaS – software as a service. Zde je poskytovanou službou datová platforma pro datové toky (pipelines) a úložiště. Dříve byly datové extrakce, transformace a importy – zkráceně ETL procesy doménou IT nebo BI specialistů, protože byly potřeba znalosti SW architektury, databází, programování a správných nástrojů. V Keboole si datové toky může bez bariér naklikat i člověk bez technických znalostí.

Úvod do Kebooly, návody

Keboola je cloudová služba, takže nepotřebujete nic instalovat. Služba funguje na Freemium modelu kdy můžete Keboolu používat zdarma s určitými omezeními, které vás ale pro vyzkoušení nebo menší projekt nebudou nijak výrazně omezovat. Podrobnosti na pricing stránce Kebooly.

Pro první seznámení doporučuju tyto zdroje

Na tomto webu najdete několik článků a návodů ke Keboole, které se detailně věnují některému z vybraných témat. K tomu, abyste si mohli vyzkoušet návody prakticky potřebujete pouze účet u Kebooly. Databázi AdventureWorks online máte k dispozici online- Moc díky sqlservercentral.com

Srovnání Keboola Freemium s alternativou Fivetran Free

Keboola by se dala přirovnat z těch známějších nástrojů např. k Fivetranu – Challenger z Gartner reportu 2023. Oba tooly jsou dobré a nedá se podle mě říci, že je jeden výrazně v něčem lepší než druhý.

Celkové vyhodnocení Keboola vs Fivetran

Níže najdete kritéria srovnání co mě napadly. Je z toho vidět, že overall je to zhruba remíza a volba toho kterého nástroje závisí na konkrétních aktuálních a budoucích podmínkách právě u vás. Volil bych v závislosti na tom, co od nástroje očekávám cca takto (podrobněji jsem to rozepsal v další kapitole):

Fivetran: Máte datový sklad nebo lake onprem nebo v cloudu a ve skutečnosti potřebujete pouze dostat data z primárních systémů k vám a následně si děláte transformace a orchestrace na vlastní pěst třeba přes dbt, airflow nebo jinak.

Keboola: Pokud hledáte ETL/ELT tool a Snowflake ekosystém spíše než ETL průtokáč. Také bych Keboolu volil pokud očekáváte od služby i lepší orchestrační vlastnosti, možnost dělat transformace přímo v Keboole a možnost si tyto transformace nakódit v SQL/Python workspace. Možnost psát si vlastní komponenty a mnoho dalšího

Podrobnější vyhodnocení Keboola vs Fivetran

Rozdílů mezi Fivetranem a Keboolou je samozřejmě mnoho, pokusím se kvantifikovat ty nejzásadnější. Jedná se samozřejmě o můj subjektivní názor.

  • (Remíza) Easy to use – Obě platformy jsou user friendly, nastavení datových komponent je jednoduché.
  • (Remíza) Support – uživatelská podpora je řekl bych na vysoké úrovni u obou
  • (Remíza) Bezpečnost – Obě platformy nabízejí zabezpečená připojení a různé možnosti autorizace na cloudové služby přes vestavěné konektory (Oauth, SSH, certifikáty, tokeny)
  • (Remíza) Obě platformy nabízejí široké možnosti identifikace incrementu a volby způsobu ukládání (replace, increment atd) a nastavení metadat u tabulek
  • (Prohra) Keboola má pricing dle minutáže, kdežto Fivetran od MAR (monthly active rows).
    • Ve Freemium modelu Kebooly máte k dispozici 120 minut, které poměrně rychle spotřebujete neboť má Keboola celkem velké režie na zpracování. Tento model Kebooly je celkem logický, protože extenzivně u každé komponenty využívá Snowflake jako backend (computing náklady).
    • Oproti tomu Fivetran nezajímá jak dlouho vám to běží a účtuje vám řádky – máte zdarma 500 000 řádků/měsíc. Dost často teda máte pro menší projekty ELT tool zadarmo.
  • (Prohra) Keboola je při mém testování línější při zpracování dat u malých tabulek, což v kombinaci s pricingem na minutáž a většího počtu menších tabulek může způsobit zvýšené náklady. Testoval jsem cca 8 tabulek s celkem cca 20 000 řádků a Flow ze SQL server databáze do Keboola storage jede cca 4-5 minuty (2 komponenty). To se mi zdá dost. Na druhou stranu určitě neplatí, že vztah mezi počtem záznamů a dobou běhu je lineární, takže doporučuju otestovat na vašem scénáři.
  • (Výhra) Keboola je ETL/Data platforma ekosystém koexistující se Snowflake a řadou dalších platforem.
    • Keboola tedy nabízí všestrannost pro širší spektrum uživatelů – nástroje jak pro laiky (netechnické uživatele), tak pro profíky (python, api, R a podobně).
    • Fivetran je spíše orientován jako průtokový ohřívač – vezme Data Source – Destination, doručí data a tím to končí.  Je tedy ve všestranosti omezenější, ale na druhou stranu má perfektně zvládnutou ELT část a vše je bleskurychlé.
  • (Výhra) Orchestrační funkce Kebola má určité možnosti orchestrování. Určitě nechci Keboolu srovnávat s tooly typu Airflow, Dagster, Mage.ai a podobně, ale Kebola si poradí s většinou scénářů vyžadující orchestraci flows na úrovni aplikace. Navíc v rámci Keboola flows nejsme omezeni pouze na komponenty v aplikaci, ale umíme věci třeba jako:
    • Volat SQL Server procedury (typicky chceme napočítat sémantickou vrstvu poté co stáhnem raw data)
    • Refreshovat Power bi reporty (chceme refreshnout reporty poté co napočítáme sémantickou vrstvu a datasety)
    • Něco triggerovat přes api
    • a další