Archív rubriky: Keboola – Návody a informace

Česká Keboola patří mezi cloudové služby poskytované jako SaaS – software as a service. Zde je poskytovanou službou datová platforma pro datové toky (pipelines) a úložiště. Dříve byly datové extrakce, transformace a importy – zkráceně ETL procesy doménou IT nebo BI specialistů, protože byly potřeba znalosti SW architektury, databází, programování a správných nástrojů. V Keboole si datové toky může bez bariér naklikat i člověk bez technických znalostí.

Úvod do Kebooly, návody

Keboola je cloudová služba, takže nepotřebujete nic instalovat. Služba funguje na Freemium modelu kdy můžete Keboolu používat zdarma s určitými omezeními, které vás ale pro vyzkoušení nebo menší projekt nebudou nijak výrazně omezovat. Podrobnosti na pricing stránce Kebooly.

Pro první seznámení doporučuju tyto zdroje

Na tomto webu najdete několik článků a návodů ke Keboole, které se detailně věnují některému z vybraných témat. K tomu, abyste si mohli vyzkoušet návody prakticky potřebujete pouze účet u Kebooly. Databázi AdventureWorks online máte k dispozici online- Moc díky sqlservercentral.com

Celkové vyhodnocení Keboola vs Fivetran

Keboola by se dala přirovnat z těch známějších nástrojů např. k Fivetranu – Challenger z Gartner reportu 2023. Oba tooly jsou dobré a nedá se podle mě říci, že je jeden výrazně v něčem lepší než druhý.

Níže najdete kritéria srovnání co mě napadly. Je z toho vidět, že overall je to zhruba remíza a volba toho kterého nástroje závisí na konkrétních aktuálních a budoucích podmínkách právě u vás. Volil bych v závislosti na tom, co od nástroje očekávám cca takto (podrobněji jsem to rozepsal v další kapitole):

Fivetran: Máte datový sklad nebo lake onprem nebo v cloudu a ve skutečnosti potřebujete pouze dostat data z primárních systémů k vám a následně si děláte transformace a orchestrace na vlastní pěst třeba přes dbt, airflow nebo jinak.

Keboola: Pokud hledáte ETL/ELT tool a Snowflake ekosystém spíše než ETL průtokáč. Také bych Keboolu volil pokud očekáváte od služby i lepší orchestrační vlastnosti, možnost dělat transformace přímo v Keboole a možnost si tyto transformace nakódit v SQL/Python workspace. Možnost psát si vlastní komponenty a mnoho dalšího

Podrobnější vyhodnocení Keboola vs Fivetran

Rozdílů mezi Fivetranem a Keboolou je samozřejmě mnoho, pokusím se kvantifikovat ty nejzásadnější. Jedná se samozřejmě o můj subjektivní názor.

  • (Remíza) Easy to use – Obě platformy jsou user friendly, nastavení datových komponent je jednoduché.
  • (Remíza) Support – uživatelská podpora je řekl bych na vysoké úrovni u obou
  • (Remíza) Bezpečnost – Obě platformy nabízejí zabezpečená připojení a různé možnosti autorizace na cloudové služby přes vestavěné konektory (Oauth, SSH, certifikáty, tokeny)
  • (Remíza) Obě platformy nabízejí široké možnosti identifikace incrementu a volby způsobu ukládání (replace, increment atd) a nastavení metadat u tabulek
  • (Prohra) Keboola má pricing dle minutáže, kdežto Fivetran od MAR (monthly active rows).
    • Ve Freemium modelu Kebooly máte k dispozici 60 minut, které poměrně rychle spotřebujete neboť má Keboola celkem velké režie na zpracování. Tento model Kebooly je celkem logický, protože extenzivně u každé komponenty využívá Snowflake jako backend (computing náklady).
    • Oproti tomu Fivetran nezajímá jak dlouho vám to běží a účtuje vám řádky – máte zdarma 500 000 řádků/měsíc. Dost často teda máte pro menší projekty ELT tool zadarmo.
  • (Prohra) Keboola je při mém testování línější při zpracování dat u malých tabulek, což v kombinaci s pricingem na minutáž a většího počtu menších tabulek může způsobit zvýšené náklady. Testoval jsem cca 8 tabulek s celkem cca 20 000 řádků a Flow ze SQL server databáze do Keboola storage jede cca 4-5 minuty (2 komponenty). To se mi zdá dost. Na druhou stranu určitě neplatí, že vztah mezi počtem záznamů a dobou běhu je lineární, takže doporučuju otestovat na vašem scénáři.
  • (Výhra) Keboola je ETL/Data platforma ekosystém koexistující se Snowflake a řadou dalších platforem.
    • Keboola tedy nabízí všestrannost pro širší spektrum uživatelů – nástroje jak pro laiky (netechnické uživatele), tak pro profíky (python, api, R a podobně).
    • Fivetran je spíše orientován jako průtokový ohřívač – vezme Data Source – Destination, doručí data a tím to končí.  Je tedy ve všestranosti omezenější, ale na druhou stranu má perfektně zvládnutou ELT část a vše je bleskurychlé.
  • (Výhra) Orchestrační funkce – Kebola má určité možnosti orchestrování. Určitě nechci Keboolu srovnávat s tooly typu Airflow, Dagster, Mage.ai a podobně, ale Kebola si poradí s většinou scénářů vyžadující orchestraci flows na úrovni aplikace. Navíc v rámci Keboola flows nejsme omezeni pouze na komponenty v aplikaci, ale umíme věci třeba jako:
    • Volat SQL Server procedury (typicky chceme napočítat sémantickou vrstvu poté co stáhnem raw data)
    • Refreshovat Power bi reporty (chceme refreshnout reporty poté co napočítáme sémantickou vrstvu a datasety)
    • Něco triggerovat přes api
    • a další

ETL | Keboola – Flow Transformace (Snowflake), Refresh Power BI Reportu

Minule jsme udělali takový větší deep dive do toho jak funguje Keboola storage, jak aplikace zpracovává a jak ukládá data během nějakého flow. Dneska ukážu, jak fungují v Keboole transformace. Vytvoříme si mnohem komplexnější Flow, které napočítá data ze zdroje a poté aktualizuje Power BI report. Keboola Transformace (ETL přístup) – kdy je používat Transformace… Čtěte více »

ETL | Keboola Free – Úložiště souborů, limit, tokeny, IN/OUT

V předchozích článcích jsem ukazoval, jak jednoduché je v Keboole založit svoje první data flow a podrobněji jsme se podívali na páteřní prvky Flow což jsou Keboola komponenty a jejich nastavení. Jestliže páteřními prvky každého flow jsou komponenty, tak jedním z hlediska celé architektury je klíčová Keboola storage nebo-li úložiště souborů. Kebola úložiště (Storage) –… Čtěte více »

ETL | Keboola Free – Komponenty, Typy, Bezpečnost

V Keboole jsou komponenty bloky, ze kterých se skládá Data Flow (pipeline). Jsou to prvky v ETL/ELT procesu, pomocí kterých se napojujeme na zdroj dat (source) nebo cíl dat (destination). Díky komponentám jsme schopni data přenášet. Díky demokratizačním nástrojům jako je Keboola není potřeba umět programovat, protože Keboola komponenty jsou již připraveny v aplikaci, stačí… Čtěte více »

ETL | Keboola – Data Flow návod – SQL Server do Google drive

V minulém díle nazvaném ETL | Keboola Free (zdarma) – Vytvoření projektu, základy jsme dělali základní seznámení s aplikací. Prošel jsem postup při založení projektu a také jsme orientačně prošli strukturu Kebooly a menu. Dneska bych se chtěl ukázat, jak jednoduché je vytvořit Keboola flow. Flow je v Keboole označení pro pipeline, data flow, datový tok… Čtěte více »

ETL | Keboola Free (zdarma) – Vytvoření projektu, základy

V předchozím článku jsme si udělali menší úvod- ETL | Keboola – Úvod, Pricing, Produkty – Alternativa Fivetran. Víme, že Keboola nabízí Freemium model, takže si můžeme tento nástroj vyzkoušet zdarma. Budeme muset pouze strpět limitace co se týče používání (limit počtu minut je 120). Podíváme se, jak vypadá prostředí v aplikaci a seznámíme se… Čtěte více »

ETL | Keboola – Úvod, Pricing, Produkty – Alternativa Fivetran

V rámci demokratizace dat a přeměny na data-driven management firem přechází čím dál tím více firem na řešení, která tuto kulturu podporují a posilují. Data se zpřístupňují širokému okruhu uživatelů pro analýzy a reporting v nástrojích jako je třeba Power BI. Na úrovni ETL nástrojů pomocí nichž provádíme datové integrace do centrálního úložiště – datového… Čtěte více »