Dnes bych se chtěl opět podrobněji podívat jaké možnosti nabízí ChatGPT plus co se týče analýzy dat. V minulém článku jsme pomocí Chat GPT provedli finanční analýzu společnosti NVIDIA. Dnes využijeme stejnou ChatGpt funkci, která nám umožňuje nahrát data a podíváme se jak může vypadat statistická analýza v podání Chat GPT, když tomu dáme volnou ruku.

Pokud uvažujete o tom, použít AI pro váš statistický projekt/úkol, tak se zde můžete podívat co zhruba můžete od této placené funkce očekávat.

Jaká máme tvrdá statistická data a jaký je zdroj – COVID-19 (sample)

Statistická data jsem získal z od poskytovatele databázové platformy Snowflake – tam je možné získat všemožná sample statistická data na hraní. Některá jsou placená (reálná) a některá jsou zdarma. V tomto případě budeme pracovat s databází – COVID-19 Epidemiological Data (popis a podrobnější info viz odkaz). Tato databáze obsahuje mnoho tabulek včetně například vakcinace.

My si však chceme otestovat nějak jednoduše ChatGPT, takže nebudeme zabíhat příliš do podrobností. Spokojíme se s následujícím datasetem:

  • Země (country)
  • Datum
  • Počet nových případů
  • Počet úmrtí
  • Case fatality ratio (podíl úmrtí/počet případů)

Pro extrakci použijeme skript viz níže a následně si data vyexportujeme do csv (abychom ho mohli předhodit chatGPT). Dataset v csv si můžete stáhnout z odkazu covid-19-epidemiologicaldata.csv

use COVID19_EPIDEMIOLOGICAL_DATA

SELECT m.COUNTRY_REGION, m.DATE, m.CASES, m.DEATHS, m.DEATHS / m.CASES as CFR
FROM (SELECT COUNTRY_REGION, DATE, AVG(CASES) AS CASES, AVG(DEATHS) AS DEATHS
      FROM COVID19_EPIDEMIOLOGICAL_DATA.PUBLIC.ECDC_GLOBAL
      GROUP BY COUNTRY_REGION, DATE) m
WHERE m.CASES > 0;

zdroj dat covid-19

Data jsou omezena od 2020-02-25 do 2020-12-14 tzn cca 9 a půl měsíce.

Statistická analýza dat v podání Chat GPT

Říkal jsem, že necháme ChatGPT volnou ruku a tím pádem tomu úplně nechci říkat co má nebo nemá dělat. V reálu můžeme AI různě korigovat nebo požadavky upřesňovat.

a) Identifikace cíle statistické analýzy

Nahrávám do chatgpt data a ptám se

chatgpt statistická analýza prompt

Dostávám celkem smysluplnou odpověď

b) Deskriptivní (popisná) analýza

Dostáváme poměrně solidní statistický popis vzorku dat. Rád bych zejména ale upozornil na to, že ChatGPT sám našel v datech nesrovnalosti, které nejenom že identifikoval, ale rovnou data má tendenci vyčistit

deskriptivní analýza dat chatgpt

Po vyčištění dat to vypadá takto

V tomto duchu to jde dál až do konce což už sem všechno nebudu kopírovat. Myslím že pro představu toho, co chatgpt umí to celkem stačí. Umí toho celkem dost. Jediná věc co mě štve, že při větším objemu dat chatgpt často padá a analýzu musí opakovat. To je poměrně zdlouhavé. Do cíle ale dojdete

5/5 - (1 vote)

Ing. Jan Zedníček - Data Engineer & Controlling

Jmenuji se Honza Zedníček a působím jako freelancer. Pracoval jsem dříve také jako BI developer, finanční controller a analytik. Vše pro společnosti z oblasti IT, bankovnictví, consultingu a výroby. Po práci si rád zahraju tenis, volejbal, šachy, zajdu do posilovny a občas neúspěšně odpálím pár balónků v golfu 🏌️

Již cca 10 let zapisuji na tento web různé návody určené zejména odborné veřejnosti, studentům a zájemcům o informace z oblastí Business intelligence, korporátních financí a reportingu.

🔥 Přihlašte se do naší Excel facebook skupiny (2.4k+ členů), kde si pomáháme Excel CZ/SK diskuse »

Leave a Reply

Your email address will not be published. Required fields are marked *