• 23.4.2019
  • Ing. Jan Zedníček - Data Engineer & Controlling
  • 0

Datový sklad je centralizované úložiště, kde se nacházejí informace z celé firmy a tyto informace jsou uloženy v takové formě, kdy se dají data jednoduše a srozumitelně reportovat v Excelu nebo jiném nástroji – například Power BI.

V určité fázi životního cyklu každé firmy nastane čas, kdy si najednou uvědomíte, že máte příliš mnoho podnikových systémů a příliš mnoho požadavků na informace na to, abyste byli schopni tyto informace efektivně (rozumněj správně a rychle) získávat a transformovat do srozumitelných reportů. Tato fáze nastává u každé firmy v různou dobu.

Záleží na předmětu podnikání, počtu zaměstnanců a organizační struktuře, nárokům na preciznost informací, kvalitě analytického/controllingového oddělení a tak dále. Často máte také srozumitelné reporty už na úrovni podnikových systémů…často ne. Často potřebujete podnikové systémy mezi sebou propojit, protože v jednom máte určitou informaci a v dalším systému zase jiný kousek do skládačky.

Nedá se to úplně paušalizovat, ale řekl bych, že správná doba pro změnu (nebo minimálně kozultaci s odborníkem) nastává v okamžiku, kdy subjektivně cítíte, že se s množstvím a strukturou informací ve firmě již nedokážete vypořádat.

Znám spoustu středních i větších firem, které jedou pouze na Excelech a mají plně dostačující sofistikovaný reporting. I takový přístup ale potřebuje kvalitní lidi, kteřý vytvoří koncept…I Excel reporting koncept se dá udělat dobře a špatně. Jistě menší firma se dá řídit v extrémním případě i bez informací nebo jen s kusými nepravidelnými informacemi, protože vlastník má důležité skutečnosti v hlavě. Střední a velká firma se takto řídit dá jen těžko a ne na dlouho 🙂

Fáze projektu Datový sklad:

  • Výběr zpracovatelské firmy
  • Zpracování projektové dokumentace spolu s projektovými pilíři a časovou náročností + smluvní dokumentace – důležitá část
  • Práce na projektu, průběžná kontrola, akceptace/reklamace jednotlivých částí. Postupné uvolňování peněz

Kontaktování a výběr konzultační firmy

Na úvod: Pokud se rozhodnete, že chcete ve svém podnikovém prostředí vybudovat datový sklad, tak pravděpodobně kontaktujete nějakou specializovanou firmu. Ta za vámi pošle konzultanta, aby zjistila rozsah požadovaných prací a mohla vám zhotovit indikativní nabídku.

Solidní firmy, které už za sebou mají řadu postavených skladů, jsou na bázi strukturovaného rozhovoru s vámi schopny poměrně slušně odhadnout časovou náročnost.

Je velmi důležité, aby jste byli na tento rozhovor připraveni a věděli, co vlastně očekáváte – co je cílem projektu (třeba jaké finanční reporty mají vzniknout/ přístup k datům pro analytiky apod).

Je dosti časté, že zadavatel vlastně vůbec neví co chce. Lépe řečeno ví, že chce datový sklad, ale neví co od něj vlastně požaduje za funkce a jaké problémy má datový sklad řešit. Jaké informace vlastně chceme ve finále reportovat? V takovém případě počítejte s tím, že jste “zlatý důl”. Indikuje to totiž to, že nejste schopni projekt řídit – dát kvalitní zadání, kontrolovat jeho průběh a výsledky.

Nesolidní zpracovatelská firma toto velice rychle z rozhovoru vycítí. Může si s vámi dělat co chce..slibovat, mazat med kolem huby, dodávat pomalu a nekvalitně..budete hodně platit – penězi, svým časem a nervovým systémem. Často se projekt nedotáhne do konce.

Co je důležité u výběru konzultační firmy

  • Vybrat firmu s referencemi, která má ideálně za sebou podobný projekt v podniku s podobným business modelem
  • Mít inhouse odborníka na danou oblast. Ne striktního IT specialistu, který instaluje tiskárny, ale profíka na business intelligence, finančního controllera se zkušenostmi s databázemi apod. Případně si najmout projektový dohled. Když stavíte barák, tak si někoho takového najímáte také.
  • Zeptat se dopředu na hodinovou sazbu a tuto skutečnost brát při výběru firmy do úvahy. MD sazby (u nižších nebo vyšších sazeb zpozorněte)
    • MD sazby firem se pohybují od  10 000 do 25 000 Kč/den
    • MD sazby freelancerů 7 000 – 15 000
  • Neplatit zálohy dokud není odsouhlasena projektová dokumentace a cena – Solidní firma přijede na první schůzku zadarmo.

Zpracování projektové dokumentace a cena za datový sklad

Projektová dokumentace je velmi důležitý dokument, který dává projektu řád. Nejen to, precizně zpracovaná dokumentace je také oporou při potenciálním sporu při reklamaci díla a podobně. Měla by být součástí smluvní dokumentace. Platí to zejména pro větší projekty.

Hodně lidí si řekne, že dokumentace nemá smysl, protože během projektu se vyskytují různé situace, které se řeší za pochodu. Částečně je to pravda, ale i na tyto situace můžete v dokumentu myslet a nějaký zůsobem je nadefinovat a určit pravidla, jak je řešit. Vyhnete se situacím, kdy dílo nesplňuje očekávání a zpracovatel vám řekne: “No jóó ale to jste nám neřekl” anebo “Co byste chtěl za tyhle peníze”

Zhotovení dokumentace je časově poměrně náročná úloha, která vyžaduje součinnost jak na straně objednatele, tak na straně zhotovitele. V ideálním případě je dobré zapojit třetí stranu, někoho nezávislého. Projektová dokumentace by měla být rozdělena do projektových pilířů, které jsou dostatečně velké (malé).

U větších projektů bývá standardem, že se platby za dílo uvolňují při akceptování nějakého pilíře. To znamená, že pilířů by měl být dostatečný počet a tyto by měly na sebe navazovat a vzájemně se ovlivňovat co nejméně.

Každý pilíř by měl být dále rozpadnut na jednotlivé činnosti a tyto by měly být ohodnoceny počtem hodin/dní, které jsou nutné k dokončení. Zpracovatel by měl také v dokumentaci deklarovat, co potřebuje od vás aby mohl být daný úkol úspěšně dokončen. Součástí dokumentu může být dále např. analýza potřeb zákazníka, analýza proveditelnosti atp.

Na projektovou dokumentaci se následně můžete odkázat ve smluvní dokumentaci, ve které např můžete řešit:

  • Fakturace za jednotlivé pilíře/činnosti
  • Jak postupovat pokud není splněn budget určitého pilíře
  • Jak reklamovat dodávku a má zpracovatel nárok na dodatečnou odměnu?
  • Odstoupení od smlouvy
  • jiné

Datový sklad a pilíře projektové dokumentace

Pilíře středně velkého projektu mohou vypadat třeba takto. Každý se ideálně rozpadá na menší kameny

Pilíře projektu datového skladu – příklad konzervativního přístupu

  1. Analýza potřeb zákazníka (může být smluvně a fakturačně ošetřeno zvlášť) (10 MD)
  2. Pořízení a zprovoznění SQL Server (150 000 Kč + 3,5 MD) – pozn. onprem architektura, s využitím cloudu např Snowflake odpadá investice a platí se “pay as you go”
    • Nákup licencí (150 000 Kč)
    • Instalace a konfigurace VS (0,5 MD)
    • Instalace a konfigurace SQL Server (report server, emaily, job agent, security,testování…) (2 MD)
    • Instalace SW 1…n (1 MD)
  3. Návrh architektury datového skladu (24 MD)
    • Increment area – 50 tabulek ze 3 různých zdrojových systémů (3 MD)
    • Stage area – 50 tabulek ze 3 různých zdrojových systémů (3 MD)
    • Prezentační vrstva (finální datové úložiště) – tvorba snowflake schémat z tabulek z předchozího kroku – ve finále vznikne 23 tabulek ve 3 schématech  (15 MD)
    • Logování – framework pro logování (2 MD)
    • ETL area – databáze pro ETL objekty (1 MD)
  4. Návrh a realizace ETL procesů + testování (60 MD) – pozn. s využitím demokratizačních nástrojů mnohem méně
    • Zdrojový systém 1…n do Increment Area – 10x SSIS package, který zpracuje data ze zdrojových systémů + tvorba metadat (10 MD)
    • Zdrojový systém 1…n do Stage Area -50x SSIS package, který historizuje data z increment area (10 MD)
    • Transformace dat do prezentační vrstvy – tvorba procedur a SSIS packages, které transformují a uloží data do Prezentační vrstvy (20 MD)
    • Testování (funkčnost, performance testy) (20 MD)
  5. Návrh a realizace Reportingu (16 MD)
    • Reproting services report – 5 ks reportů  (10 MD)
    • Analysis services report 2 ks OLAP kostek (3 MD)
    • Excel, Power BI report 2ks Power BI report (3 MD)
  6. Školení zaměstnanců (10 MD)

Pozn: Vidíme, že dle návrhu je pilíř 4 ve zjevném nepoměru k ostatním pilířům a asi by bylo vhodné jej rozdělit, aby jste více diverzifikovali riziko a zlepšili možnost průběžné kontroly tak, aby tato část nebyla příliš velký black box.

Update (2024-02-08) – Tento článek vznikl před několika lety. Velká část ceny projektu je u staršího, konzervativního přístupu ke stavění datových skladu část ETL (extract, transfer, load). Novější přístup je založen na ELT (extract, load, transfer) – tedy nejprve natáhnu data a až potom je ztransformuji. Tento přístup je založen na novém trendu demokratizaci dat a data-driven přístupu řízení. Díky tomuto globálnímu trendu na trhu vznikl nový segment nástrojů, který tento koncept podporují dokáží náklady na ETL nejenom výrazně stlačit o desítky % dolů, ale umožní také ovládat celé řešení méně technickým kolegům (nemusíte být ajťák). Mezi takové nástroje patří Keboola (ETL/ELT), Fivetran (ELT), dbt (transformace) a další. Jak může vypadat ukázka dbt projektu se můžete podívat v mém GitHub veřejném projektu.

Celková cena za datový sklad – příklad konzervativní přístup

Když sečteme všechny plánované úkony z předchozí kapitoly dostaneme se na nějaký očekávaný budget, který buď akceptujeme nebo jej třeba osekáme/změníme zadání. V každém případě tímto způsobem už nastavujeme očekávání, což je dobré a vyhneme se překvapením.

  • TOTAL                                   123,5 MD
  • Sazba MD                              8000 Kč
  • Celkem práce                        988 000 Kč
  • Investice do SQL Server     150 000 Kč
  • CELKEM  bez DPH        1 138 000 Kč

Pozor výše jsou jen investiční náklady. Interně si budete muset ještě započítat svoje interní náklady na řízení projektu a případně dodatečné náklady na zaměstnance – o datový sklad se vám do budoucna musí někdo starat, řešit úpravy reportů, nové systémy apod. Je dobré, aby nový zaměstnanec byl u projektu už od začátku a podílel se na něm. Pokud nového zaměstnance nechceme, je potřeba strukturu a komplexitu projektu tomu přizpůsobit, aby byl datový sklad co nejméně náročný na údržbu a budoucí režijní náklady. v takovém případě lze potom údržbu skladu outsourcovat za rozumné peníze.

Cena s využitím demokratizačních nástrojů (např. Keboola) a Snowflake

Aktuální trendy stavění datových skladů nepočítají s onpremise architekturou, kdy potřebujete vlastní servery. Nepočítají s tím, že potřebujete kupu programátorů. Pokud projekt založíte například viz níže. můžete ušetřit značné CAPEX i OPEX a zlepšíte škálovatelnost. Můžeme se dostat cca o 30-50 % níže než v případě klasické architektury.

Závěr

Takto nějak by mohl vypadat budget na solidně navržený datový sklad pro střední firmu, který integruje data ze 3 různých podnikových systémů. Datový sklad automaticky (každý den) natáhne data ze zdrojových systémů a výsledek uloží.

Zhotovitel vyrobil navíc cca desítku kvalitních reportů na podporu rozhodování, které pravidelně chodí emailem manažerům. Data analytici se mohou přes Excel napojit na OLAP kostky, které obsahují všechna důležitá data v datovém skladu, která stojí za reporty. Manažeři se na klíčové reporty mohou připojit z mobilu (Power BI) 1. Zhotovitel kompletně zaškolil všechny zaměstnance, kteří s datovým skladem příjdou v budoucnu do styku. Jako bonus odpadlo ruční zpracování reportů, které trvalo velmi dlouho. Vše je nahrazeno novým reportingem.

Samozřejmě něco jiného je jak to vypadá na papíře a jak to vypadá v reálu. Je potřeba průběžné dodávky pečlivě kontrolovat a projekt aktivně řídit, aby zpracovatel neusnul na vavřínech!!!

O kvalitně zhotovený, otestovaný a dokončený datový sklad se nemusíte moc starat, prostě funguje, nic nepadá, reporty se aktualizují. Stejně tak přidání nových objektů/funkcionalit je jednoduché neboť architektura skladu je dobře navržena. O nekvalitní datový sklad se musí starat spoustu dodatečných interních/externích lidí.

5/5 - (8 votes)

Použité zdroje
  1. Microsoft Power BI, Úvodní stránka [on-line]. [cit. 2019-04-23]. Dostupné z WWW: https://powerbi.microsoft.com/cs-cz/ 

Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako freelancer. Pracoval jsem dříve také jako BI developer, finanční controller a analytik. Vše pro společnosti z oblasti IT, bankovnictví, consultingu a výroby. Po práci si rád zahraju tenis, volejbal, šachy, zajdu do posilovny a občas neúspěšně odpálím pár balónků v golfu 🏌️

Již cca 10 let zapisuji na tento web různé návody určené zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Business intelligence, korporátních financí a reportingu.

🔥 Přihlašte se do naší Excel facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse »

Leave a Reply

Your email address will not be published. Required fields are marked *