ETL | Keboola - Data Flow návod - SQL Server do Google drive

5.2.2024
Ing. Jan Zedníček - Data Engineer & Controlling
Keboola - Návody a informace
0

Obsah a struktura článku

1. Keboola Flow – Úvod a úkol – data z SQL Server do Google drive

2. Založení data flow source komponenty v Keboole, advanced mode

3. Nastavení Keboola komponenty Destination – Google drive

V minulém díle nazvaném ETL | Keboola Free (zdarma) – Vytvoření projektu, základy jsme dělali základní seznámení s aplikací. Prošel jsem postup při založení projektu a také jsme orientačně prošli strukturu Kebooly a menu. Dneska bych se chtěl ukázat, jak jednoduché je vytvořit Keboola flow. Flow je v Keboole označení pro pipeline, data flow, datový tok (jak chcete)

Keboola Flow – Úvod a úkol – data z SQL Server do Google drive

Flow se nachází v horní části menu pod položkou Flow (původně orchestrace ve starší verzi Kebooly).

Úkol – Za úkol máme importovat data ze zdroje do destinace přičemž

Zdroj – databáze SQL Server AdventureWorks – zajímá nás tabulka “Customer”
Cíl – cílová destinace je můj Google Drive – složka Keboola_GoogleAnalytics/janzednicek_flow

Přehled flow, které jsme vyrobili v tomto článku

Celková doba – potřebná k nastavení tohoto flow je cca 10-15 minut
Zdrojová tabulka – Customer (850 záznamů) na SQL Server
Cílová tabulka – Customer na Google drive
Celková doba běhu – 1 minuta
Náklady – 0 CZK

Založení data flow source komponenty v Keboole, advanced mode

1) Založení flow – klikneme na create flow a zobrazí se nám okno, kde to po nás chce zadat název nového flow a případně složku, do které jej uložíme.

název – janzednicekcz_flow_clanek
složka – janzednicek_clanky (očekávám, že těch flow budu mít více)

2) Prostředí Flow – Keboola nás vezme do prostředí námi založeného flow na této obrazovce máme na výběr

Select First Step – což znamená, že si Flow vytvoříme od nuly
Use Template – V Keboole je pár desítek templates (předpokládám že další budou přibývat), které můžete použít jako vzor

My vybereme SELECT FIRST STEP

3) Výběr komponenty Data source – Po kliknutí na “Select first step” je potřeba vybrat komponentu ke které se budeme připojovat. V našem případě Microsoft SQL Server Data source.

4) Klikneme na Create configuration a nazveme si naši konfiguraci. Nastavené kongigurace lze používat opakovaně takže se snažíme aby byly pojmenovány rozumně.

5) Vyplníme přihlašovací údaje a klikneme na test connection and load available sources.

7) V případě, že se Keboola podařilo přihlásit k datovému zdroji, tak automaticky načte všechny tabulky, které jsou k dispozici pod daným účtem.

8) Advanced mode – Můžeme ale chtít načíst data takto jednoduše, ale taky je můžeme chtít načíst prostřednictvím SQL scriptu protože je chceme upravit nebo něco vynechat. V tom případě klikneme na advanced mode.

Zde si můžeme nadefinovat spoustu dodatečných nastavení nad jednotlivými tabulkami, případně si můžeme vytvořit nový objekt a vložit skirpt. Podívejme se na nastavení u tabulky customer, kterou máme za úkol stáhnout. Na advanced mode udělám později separátní článek.

V advanced modu můžeme nastavit např:

Výběr sloupců
Název a nastavení uložení na Keboola storage
! Incremental fetching
- CDC – pokud je zapnuto na zdroji
- Na základě sloupce (např. modified)
Nastavení primárního klíče, nolock option
Write query option

9) Výběr tabulky – Zůstaneme v advanced modu, vrátíme se o krok zpět na výpis tabulek a necháme v seznamu pouze tabulku Customer, zbytek vymažeme.

Nastavení Keboola komponenty Destination – Google drive

10) Google drive destination – Vrátíme se do Flow a vybereme další komponentu – Google drive

11) Autorizace – Nastavení autorizace (přístupová práva) komponenty můžeme udělat

Online (instant) autorizaci, kdy vás Keboola autorizuje pomocí google účtu
External autorization – prostřednictvím odkazu
Custom autorization (oAuth2 – nejbezpečnější) – client + secret

12) Výběr source table – po úspěšně autorizaci klikneme na Add table. Následně se nás Keboola zeptá, jestli chceme cílovou tabulku updatovat nebo vytvořit vždy tabulku novou (full load). Vybereme třeba Create new table.

13) Google drive a výběr umístění – Posledním krokem je výběr složky na Google drive kam chceme naši tabulku prostřednictvím Kebooly nahrát.

14) Spuštění hotového flow a kontrola

Keboola soubor Customer vyexportovala na můj google drive

5/5 - (1 vote)

Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako freelancer. Pracoval jsem dříve také jako BI developer, finanční controller a analytik. Vše pro společnosti z oblasti IT, bankovnictví, consultingu a výroby. Po práci si rád zahraju tenis, volejbal, šachy, zajdu do posilovny a občas neúspěšně odpálím pár balónků v golfu 🏌️

Již cca 10 let zapisuji na tento web různé návody určené zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Business intelligence, korporátních financí a reportingu.

🔥 Přihlašte se do naší Excel facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse »

Jan Zedníček – Data & Finance

Keboola Flow – Úvod a úkol – data z SQL Server do Google drive

Založení data flow source komponenty v Keboole, advanced mode

Nastavení Keboola komponenty Destination – Google drive

Ing. Jan Zedníček - Data Engineer & Controlling

Leave a Reply Cancel reply