Dnes bych se chtěl opět podrobněji podívat jaké možnosti nabízí ChatGPT plus co se týče analýzy dat. V minulém článku jsme pomocí Chat GPT provedli finanční analýzu společnosti NVIDIA. Dnes využijeme stejnou ChatGpt funkci, která nám umožňuje nahrát data a podíváme se jak může vypadat statistická analýza v podání Chat GPT, když tomu dáme volnou ruku.
Pokud uvažujete o tom, použít AI pro váš statistický projekt/úkol, tak se zde můžete podívat co zhruba můžete od této placené funkce očekávat.
Jaká máme tvrdá statistická data a jaký je zdroj – COVID-19 (sample)
Statistická data jsem získal z od poskytovatele databázové platformy Snowflake – tam je možné získat všemožná sample statistická data na hraní. Některá jsou placená (reálná) a některá jsou zdarma. V tomto případě budeme pracovat s databází – COVID-19 Epidemiological Data (popis a podrobnější info viz odkaz). Tato databáze obsahuje mnoho tabulek včetně například vakcinace.
My si však chceme otestovat nějak jednoduše ChatGPT, takže nebudeme zabíhat příliš do podrobností. Spokojíme se s následujícím datasetem:
- Země (country)
- Datum
- Počet nových případů
- Počet úmrtí
- Case fatality ratio (podíl úmrtí/počet případů)
Pro extrakci použijeme skript viz níže a následně si data vyexportujeme do csv (abychom ho mohli předhodit chatGPT). Dataset v csv si můžete stáhnout z odkazu covid-19-epidemiologicaldata.csv
use COVID19_EPIDEMIOLOGICAL_DATA SELECT m.COUNTRY_REGION, m.DATE, m.CASES, m.DEATHS, m.DEATHS / m.CASES as CFR FROM (SELECT COUNTRY_REGION, DATE, AVG(CASES) AS CASES, AVG(DEATHS) AS DEATHS FROM COVID19_EPIDEMIOLOGICAL_DATA.PUBLIC.ECDC_GLOBAL GROUP BY COUNTRY_REGION, DATE) m WHERE m.CASES > 0;
Data jsou omezena od 2020-02-25 do 2020-12-14 tzn cca 9 a půl měsíce.
Statistická analýza dat v podání Chat GPT
Říkal jsem, že necháme ChatGPT volnou ruku a tím pádem tomu úplně nechci říkat co má nebo nemá dělat. V reálu můžeme AI různě korigovat nebo požadavky upřesňovat.
a) Identifikace cíle statistické analýzy
Nahrávám do chatgpt data a ptám se
Dostávám celkem smysluplnou odpověď
b) Deskriptivní (popisná) analýza
Dostáváme poměrně solidní statistický popis vzorku dat. Rád bych zejména ale upozornil na to, že ChatGPT sám našel v datech nesrovnalosti, které nejenom že identifikoval, ale rovnou data má tendenci vyčistit
Po vyčištění dat to vypadá takto
V tomto duchu to jde dál až do konce což už sem všechno nebudu kopírovat. Myslím že pro představu toho, co chatgpt umí to celkem stačí. Umí toho celkem dost. Jediná věc co mě štve, že při větším objemu dat chatgpt často padá a analýzu musí opakovat. To je poměrně zdlouhavé. Do cíle ale dojdete