V rámci demokratizace dat a přeměny na data-driven management firem přechází čím dál tím více firem na řešení, která tuto kulturu podporují a posilují. Data se zpřístupňují širokému okruhu uživatelů pro analýzy a reporting v nástrojích jako je třeba Power BI. Na úrovni ETL nástrojů pomocí nichž provádíme datové integrace do centrálního úložiště – datového skladu dochází také k fundamentální změně.  Vznikají cloudové nástroje jako Keboola (odkaz na web), které nevyžadují znalosti programování, administrace (instalace, server) a zpřístupňují tak možnost datových integrací širokému okruhu zájemců.

Keboola self-service data platforma – představení vendora

Keboola je startup poskytující cloudové služby zaměřené na datové integrace v samoobslužném (self-service) režimu. To znamená, že tento nástroj Vám bezbolestně umožňuje dostat data z bodu A do bodu B (ETL procesy, pipelines). Je to start-up, ale na trhu už jsou nějaký ten pátek.

Z účetní závěrky za rok 2022 české filiálky (Keboola Czech s.r.o.) na justici se toho moc nedočteme, výsledovka tam není, ale v té době se bavíme o bilanční sumě cca 60 mil Kč a výsledku hospodaření cca -60 mil. Kč – což není u startupu vůbec nic neobvyklého a zakladatelé Pavel Doležal, Petr Šimečka a Milan Veverka do toho prostě šlapou.🔥 Konsolidovaná čísla k dispozici nejsou.

Koncem roku 2023 Keboola navíc obdržela obří investici ve výši 700 mil. Kč (cca 30 mil USD) od amerického fondu – Viking Global Investors. Vypadá to, že extenzivní vývojovou fázi má Keboola již za sebou a nyní se snaží patrně srovnat šance proti svému největšímu kompetitorovi Fivetranu na poli Sales & Marketing. Fivetran je také cloudová platforma fungující na velmi podobném principu. Jak tato bitva o tržní podíl skončí uvidíme. Z této obří investice však nabito mají a na trhu demokratizačních business intelligence nástrojů začíná přituhovat. 1

Keboola produkty a funkce

Keboola si zakládá na tom, že je to nástroj přístupný širokému spektru uživatelů bez znalostí programování. O tom se se snad přesvědčíme v sérii tutoriálů o Keboole kterou chystám. V první řadě je velkým přínosem pro uživatele to, že obsahuje velké množství předdefinovaných konektorů na datové zdroje a destinace (více než 700). Samotný vývoj datových integrací je tak mnohem rychlejší a efektivnější.

Navíc kromě možnosti připojení na datové zdroje keboola podporuje různé užitečné funkce, které umožňují efektivně a bezpečně pracovat daty v prostředí datových skladů a datamartů. Například:

  • 700+ konektorů na různé zdroje a destinace – databáze, úložiště, ekosystémy (aws, google, azure, apod)
  • Nativní podpora dbt – oblíbený nástroj pro datové integrace a orchestraci
  • CDC (Change data capture) – identifikace inkrementů
  • Datové katalogy – záznamy o datech, které umožňují týmům lépe datům porozumnět
  • Podpora pro Data science
  • Data lineage – analýza závislostí datových integrací
  • Keboola as code – možnost ovládat Keboola pipelines z cmd/terminálu přes api
  • a další

Keboola Freemium a cena

Keboola se nabízí v modelu Freemium. Znamená to, že základní Tier je zdarma a je omezený co se týče funkcí a množství minut, které můžeme využít za kalendářní měsíc. 2

Ve verzi Keboola Freemium tedy máme co?

  • 120 minut výpočetního výkonu 1. měsíc a 60 minut každý následující měsíc
  • Neomezený počet ETL/ELT workflows
  • 200+ data konektorů
  • Podpora transformací pomocí (SQL, Python, R)
  • Analytické pracovní prostory (SQL, Python, R)
  • Backendové prostředí Snowflake
  • Možnosti orchestrace
  • 250 GB data storage
  • 1 Keboola connection project

Placená verze Kebooly a kalkulace nákladů – odhad

Po spálení výpočetního výkonu je možné koupit dodatečný strojový čas za 0,14 USD/minuta – tedy asi 3,22 Kč/min (při kurzu 23 CZK/USD) tedy kolem 200 Kč/hodina.

Odhad nákladů: Pokud bychom Keboolu používali pouze čistě jen jako extrakční nástroj (source-destination 1:1) s tím, že “drahé” datové transformace bychom dělali jinde (např. lokálně), tak pro řekněme menší/středně velká prostředí můžeme odhadnout denní spotřebu jak?

No řekněme že máme na extrakci třeba 200 zdrojových tabulek, z nichž každá běží v průměru třeba 30 vteřin (nevíme jak rychle Keboola běhá), protože tam máme vyřešeno inkrementální stahování dat. To máme 100 minut, tedy 1,5 hodiny na dávku (předpokládám, že paralelním zpracováním nic neušetřím). Tedy jsme na 300 Kč/dávka. Tzn. jsme na nějakých cca 9000 Kč měsíčně. To je cca 108 000 Kč ročně + náklady na chybovost a přepočítání chybných dávek (20%), tedy dohromady cca 130 000 Kč s tím, že v tom nemáme transformace a náklady na server a práci. To není špatné, není to ani levné. Otazníkem jsou pro mě další režie na úrovni zpracování dat (lokálně může jet dotaz 5 vteřin, ale záleží jak dlouho pojede v Keboole)

Pokud budeme dělat přes Keboolu sakum prdum všecko (abychom využili potenciál Data platform as a service), tak si logicky připlatíme ještě více. Všecko znamená

  • Extrakce dat ze zdrojových systémů
  • Identifikace inkrementů (pokud nejsou k dispozici)
  • Historizace (stage, trusted layer)
  • Nápočet sémantické vrstvy
  • Nápočet datasetů
  • Streaming

Tam se už můžeme asi dostat na jiné částky – násobky. Proti tomu postavte co vás stojí nebo by stála interní architektura nebo jiné řešení (např. SQL Server + SSIS + Kingwaysoft) a porovnejte.

! Finální částka ale samozřejmě záleží na konkrétních podmínkách dané společnosti a prostředí (systémy, komplexita, požadavky na data)

Závěr a první dojmy z Kebooly

Nedávno jsem dělal podrobné review open-source nástroje mageai což je super nástroj pro datové vývojáře, který vyžaduje určité znalosti Pythonu a administrace. Keboola cílí na jiný segment – umožňuje integrovat data takřka komukoliv (demokratizace ETL).

V tom spočívá výhoda, ale i ekonomické riziko. Datařina vyžaduje znalosti – přístupů, ETL architektury, bezpečnosti, SQL pro efektivní transformace a výkonné skripty. Bez těchto znalostí se může firma časem dostat pod tlak z hlediska pricingu. Je tak potřeba aby i tyto nástroje obsluhovali kompetentní lidé.

Keboolu se chystám prozkoumat a chystám sérii článků, takže stay tuned

5/5 - (3 votes)

Použité zdroje
  1. Keboola, Keboola vs Fivetran: Reduce operational costs without slowing growth [on-line]. [cit. 2024-02-02]. Dostupné z WWW: https://www.keboola.com/lp/fivetran-vs-keboola
  2. Keboola, Keboola Pricing – Build end-to-end data pipelines in one platform [on-line]. [cit. 2024-02-02]. Dostupné z WWW: https://www.keboola.com/pricing

Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako freelancer. Pracoval jsem dříve také jako BI developer, finanční controller a analytik. Vše pro společnosti z oblasti IT, bankovnictví, consultingu a výroby. Po práci si rád zahraju tenis, volejbal, šachy, zajdu do posilovny a občas neúspěšně odpálím pár balónků v golfu 🏌️

Již cca 10 let zapisuji na tento web různé návody určené zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Business intelligence, korporátních financí a reportingu.

🔥 Přihlašte se do naší Excel facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse »

Leave a Reply

Your email address will not be published. Required fields are marked *