V minulém díle nazvaném ETL | Keboola Free (zdarma) – Vytvoření projektu, základy jsme dělali základní seznámení s aplikací. Prošel jsem postup při založení projektu a také jsme orientačně prošli strukturu Kebooly a menu. Dneska bych se chtěl ukázat, jak jednoduché je vytvořit Keboola flow. Flow je v Keboole označení pro pipeline, data flow, datový tok (jak chcete)

Keboola Flow – Úvod a úkol – data z SQL Server do Google drive

Flow se nachází v horní části menu pod položkou Flow (původně orchestrace ve starší verzi Kebooly).

Keboola-flows

Úkol – Za úkol máme importovat data ze zdroje do destinace přičemž

  • Zdroj – databáze SQL Server AdventureWorks – zajímá nás tabulka “Customer”
  • Cíl – cílová destinace je můj Google Drive – složka Keboola_GoogleAnalytics/janzednicek_flow 

Přehled flow, které jsme vyrobili v tomto článku

  • Celková doba – potřebná k nastavení tohoto flow je cca 10-15 minut
  • Zdrojová tabulka – Customer (850 záznamů) na SQL Server
  • Cílová tabulka – Customer na Google drive
  • Celková doba běhu – 1 minuta
  • Náklady – 0 CZK

keboola job summary

Založení data flow source komponenty v Keboole, advanced mode

1) Založení flow – klikneme na create flow a zobrazí se nám okno, kde to po nás chce zadat název nového flow a případně složku, do které jej uložíme.

  • název – janzednicekcz_flow_clanek
  • složka – janzednicek_clanky (očekávám, že těch flow budu mít více)

keboola create new flow

2) Prostředí Flow – Keboola nás vezme do prostředí námi založeného flow na této obrazovce máme na výběr

  • Select First Step – což znamená, že si Flow vytvoříme od nuly
  • Use Template – V Keboole je pár desítek templates (předpokládám že další budou přibývat), které můžete použít jako vzor

My vybereme SELECT FIRST STEP

keboola create flow screen

3) Výběr komponenty Data source – Po kliknutí na “Select first step” je potřeba vybrat komponentu ke které se budeme připojovat. V našem případě Microsoft SQL Server Data source.

keboola search component

4) Klikneme na Create configuration a nazveme si naši konfiguraci. Nastavené kongigurace lze používat opakovaně takže se snažíme aby byly pojmenovány rozumně.

keboola flow component settings

5) Vyplníme přihlašovací údaje a klikneme na test connection and load available sources.

keboola setting database sql server component

7) V případě, že se Keboola podařilo přihlásit k datovému zdroji, tak automaticky načte všechny tabulky, které jsou k dispozici pod daným účtem.

keboola tables

8) Advanced mode – Můžeme ale chtít načíst data takto jednoduše, ale taky je můžeme chtít načíst prostřednictvím SQL scriptu protože je chceme upravit nebo něco vynechat. V tom případě klikneme na advanced mode.

Zde si můžeme nadefinovat spoustu dodatečných nastavení nad jednotlivými tabulkami, případně si můžeme vytvořit nový objekt a vložit skirpt. Podívejme se na nastavení u tabulky customer, kterou máme za úkol stáhnout. Na advanced mode udělám později separátní článek.

V advanced modu můžeme nastavit např:

  • Výběr sloupců
  • Název a nastavení uložení na Keboola storage
  • ! Incremental fetching
    • CDC – pokud je zapnuto na zdroji
    • Na základě sloupce (např. modified)
  • Nastavení primárního klíče, nolock option
  • Write query option

keboola advanced mode

9) Výběr tabulky – Zůstaneme v advanced modu, vrátíme se o krok zpět na výpis tabulek a necháme v seznamu pouze tabulku Customer, zbytek vymažeme.

Nastavení Keboola komponenty Destination – Google drive

10) Google drive destination – Vrátíme se do Flow a vybereme další komponentu – Google drive

11) Autorizace – Nastavení autorizace (přístupová práva) komponenty můžeme udělat

  • Online (instant) autorizaci, kdy vás Keboola autorizuje pomocí google účtu
  • External autorization – prostřednictvím odkazu
  • Custom autorization (oAuth2 – nejbezpečnější) – client + secret

keboola google drive autorization

12) Výběr source table – po úspěšně autorizaci klikneme na Add table. Následně se nás Keboola zeptá, jestli chceme cílovou tabulku updatovat nebo vytvořit vždy tabulku novou (full load). Vybereme třeba Create new table.

keboola google drive

13) Google drive a výběr umístění – Posledním krokem je výběr složky na Google drive kam chceme naši tabulku prostřednictvím Kebooly nahrát.

keboola google drive

14) Spuštění hotového flow a kontrola

keboola flow run

Keboola soubor Customer vyexportovala na můj google drive

5/5 - (1 vote)

Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako freelancer. Pracoval jsem dříve také jako BI developer, finanční controller a analytik. Vše pro společnosti z oblasti IT, bankovnictví, consultingu a výroby. Po práci si rád zahraju tenis, volejbal, šachy, zajdu do posilovny a občas neúspěšně odpálím pár balónků v golfu 🏌️

Již cca 10 let zapisuji na tento web různé návody určené zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Business intelligence, korporátních financí a reportingu.

🔥 Přihlašte se do naší Excel facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse »

Leave a Reply

Your email address will not be published. Required fields are marked *