25. januára 2020
Korelacia a pranostiky

Dá sa veriť pranostitkám? (alebo štatistická korelácia v praxi)

Tento článok som si dlžný asi 13 rokov. Učili sme sa na maturitu zo slovenčiny, opakovali si definíciu pranostík, teda ľudových múdrostí predpovedajúcich počasie. Myslel som si o nich svoje – ak je počasie niečím známe, tak svojou nepredvídateľnosťou – pranostiky zľudoveli preto, že dobre zneli, nie preto, že by fungovali.

Potom mi však napadlo, že čo ak je v počasí nejaký systém. Napríklad všetci vieme, že keď skončí leto, ochladí sa, no na pár dni sa zas oteplí – voláme to babie leto. Počasie tak nie je úplne náhodné. Čo ako sú pranostiky jednoducho destilovaná múdrosť mnohých generácií, odpozorované nenápadné štruktúry, ktoré si človek len tak nevšimne?

Stálo by to za to overiť. Počkať si na Katarínu, zapísať si či je na blate a potom počkať na Vianoce. A o rok znovu. To je však pomalé. Čo tak sa obzrieť dozadu? Zobrať historické dáta a skontrolovať, či pranostiky sedeli. Toto som si povedal pred 13 rokmi a konečne sa k tomu dostal.

Ako na to

Predstavme si, že si chceme overiť klasickú pranostiku: Medardova kvapka, štyridsať dní kvapká. Potrebujeme dve veci. Po prvé, historické dáta o zrážkach na Medarda (8. júna) a 40 dní po ňom. Po druhé, potrebujeme nástroj, ktorým ich spracujeme.

Predstavte si tabuľku, ktorá ma 365 stĺpcov (na každý deň v roku) a napríklad 50 riadkov (na 50 rokov historických dát). To je dokopy cez 18 000 údajov – a to len pre jednu meteorologickú stanicu. Spracovať dáta sa možno dá aj manuálne, prakticky je to však neúnosné.

Ja som našiel historické dáta pre 4 meteorologické stanice: Hurbanovo, Poprad, Košice a Oravskú Lesnú; údaje za ostatných zhruba 70 rokov – dokopy asi 300 000 číselných údajov (používal som 3 rôzne druhy dát: zrážky, minimálnu teplotu a oblačnosť). Technický postup spracovania dát ­­asi takmer nikoho nezaujíma, ak niekoho áno, rozkliknite ďalšie okienko.

Náhľad do programu
Človek, čo nevie programovať, povie: „Íha, to vyzerá zložito.“ Človeka, čo vie programovať, asi trochu napína. Sorry.

Pre každú z pranostíka mam takýto blok, je to robené pomocou programu/jazyka Mathematica. Využíva to zopár funkcií, ktoré sú zadefinované inde (napr. changeDate), je k tomu ešte jedna pomocná strana. Elegancia/estetika tomu samozrejme chýba, veľa fyzikov programuje iba takto úžitkovo. Prepáčte (ľudia, ktorí sa tomu venujú seriózne).

Pre program je jednoduché prebehnúť cez všetky záznamy a spočítať, koľko dní po Medardovi naozaj prší a zo všetkého spraviť pekný graf.

Je to celá veda

Spracovávať takto pranostiky je celá veda (a nemyslím tým paremiológiu). Ja som tomu venoval niekoľko večerov a myslím, že s trochou snahy by sa z toho dala spraviť aj bakalárska práca.

Vyhodnotil som percentuálnu úspešnosť zhruba 20 pranostík v 4 rôznych mestách. Rovno prezradím výsledok: väčšina z nich prakticky vôbec nesedela. Niektoré ale trochu sedeli v niektorých mestách. Ak by som mal dáta pre dostatok miest na Slovensku, dalo by sa pozrieť v ktorých častiach krajiny sedia ktorá pranostiky najviac a porovnať to s informáciou, kde dané pranostiky vznikli. Podľa mňa by takéto spojenie štatistiky s folkloristikou mohlo fungovať aj ako menší vedecký projekt.

Predvídateľnosť počasia

Ak ste svoj doterajší život strávili zavretí v pivnici, nasledujúci obrázok obsahuje to, čo potrebujete vedieť o počasí. Zobrazuje 70 rokov minimálnej dennej teploty v Oravskej lesnej zobrazených cez seba, čiernou farbou je zobrazený rok 1988, kedy som sa narodil.

Z grafu sa dajú usúdiť dve veci. Po prvé, dlhodobo je počasie predvídateľné. V zime je chladnejšie než v lete, jar a jeseň sú niečo medzi. Toto sú veci, ktoré samozrejme dobre poznáme. Po druhé, hodnoty pre daný deň môžu v priebehu viacerých rokov šialene lietať. Niekedy sú na Silvestra treskúce mrazy a niekedy je nad nulou. Rovnako prudko sa môžu meniť hodnoty zo dňa na deň.

Dlhodobé trendy sú dobre predvídateľné, konkrétne dni však lietajú divoko. Už to je dostatočný dôvod na to, aby bral človek s rezervnou pranostiky, ktoré sa týkajú konkrétnych dní – ak sedia, tak naozaj len náhodou.  

Nutné minimum – štatistická korelácia

Kľúčovým nástrojom na hodnotenie pranostík je štatistika. Ojojoj, čísla! Nebojte sa, vystačíme si s úplným minimom. Pôjde nám o dva pojmy. Prvým je priemer (resp. stredná hodnota) – ten asi netreba predstavovať.

Tým druhým je korelácia. Možné synonymum je aj prepojenie. Veľa pranostík má totiž formuláciu: „Keď sa jeden stane deň toto, druhý deň sa stane toto.“ Korelácia nám hovorí o tom, ako sú dve sady čísiel prepojené. Napríklad ak máme dve sady čísiel: (1,2,3) a (2,4,6); tak sú pomerne očividne prepojené. Konvencia je také, že ich koreláciu označíme ako 1 (škále ide -1 po 1).

Korelácia nám hovorí, či čísla stúpajú a klesajú oproti priemeru naraz (korelácia je 1), presne opačne (korelácia je -1) alebo nezávisle od seba (korelácia je 0). Príklad zápornej korelácia sú napríklad (1,2,3) a (3,2,1). Príklad nulovej korelácie je (1,2,3) a (1,-2,1), jedna postupnosť rastie a druhá chodí hore-dole.

Matematike sa dá často ľahšie rozumieť cez obrázky, pozrime sa na graf dvoch rôznych sád čísiel označených červenou a modrou. Sú tieto hodnoty korelované? Keď sa pozriete len na začiatok grafu, prvé dva kopčeky, tak to vyzerá, ako keby boli (anti)korelované – keď jeden stúpa, druhý klesá. Potom sa to však otočí a stúpajú naraz, potom zas naopak, potom zas spolu – dokonalý nesynchronizovaný chaos. Odborne povedané, (takmer) nulová korelácia. (Matematicky je vyčíslená na 0.02.)

Korelacia 0
Sú dáta korelované?

Aby sme trochu získali cit pre koreláciu, pozrime si ešte týchto 5 grafov. Zľava doprava rastie korelácia, od -1 po 1. Dokonale zladené alebo dokonale rozladené grafy sa dajú predstaviť ľahko, užitočný je však druhý a štvrtý graf. Ukazujú nám, čo si asi predstaviť pod koreláciou, ktorá je „niekde medzi“.

Zľava doprava: antikorelované, mierne antikorelované, nekorelované, mierne korelované, korelované. Riadny jazykolam!

Hotovo! Vidíte, že to ani tak nebolelo. Môžeme sa vrhnúť na pranostiky.

Štatistiky pranostík

Ešte doplním jednu vec – máloktoré pranostiky sú formulované úplne jasne, pripravené na matematickú analýzu. Pri každej z nich uvediem, že ako som ich interpretoval. Pri veciach týkajúcich sa teploty používam minimálnu dennú teplotu, mám pocit, že lieta menej ako maximálka a je trochu smerodajnejšia.

Pri korelácii som zamlčal ešte jednu jej príjemné vlastnosť – nie je citlivá na veľkosť čísiel a ani na ich priemernú hodnotu. Pri výpočte korelácie môžem zameniť (1,2,3) s (10,20,30) alebo s (11,12,13). Koreláciu nezaujíma, aké čísla sú, ale či poskakujú zladene alebo nie.

Na čo je nám to užitočné? Pokojne môžeme meteorologické hodnoty preškálovať tak, aby nám sedeli do jednoduchého grafu. Vykreslené hodnoty budú teda uvádzané relatívne.

Katarína na blate, Vianoce na ľade

Jedna z najznámejších pranostík vôbec. Prevedená do matematickej reči nasledovne: existuje korelácia medzi zrážkami na Katarínu (25. 11.) a teplotou na Vianoce (24. 12.). Ak je na Katarínu veľa zrážok, na Vianoce má byť mráz. Očakávame teda, podľa pranostiky, výraznú negatívnu koreláciu (blízko -1). Čo hovoria dáta? (Čísla v zátvorke udávajú koreláciu.)

Katarina na blate, Vianoce na lade.

Verdikt: Okrem Oravskej Lesnej prakticky žiadna korelácia a aj v tomto prípade iba veľmi malá. Pranostika nesedí.

Ak hus o Martina už po ľade chodí, zas okolo Vianoc v kaluži sa brodí

Veľmi podobné predošlému príkladu. Porovnám či mrzlo na Martina, teda 11.11. (1 ak áno, 0 ak nie) a teplotu na Vianoce. Bral som to tak, že kaluž znamená, že je teplo. Všimnite si neprekvapivú vec: v Hurbanove na Martina mrzne menej, než v Poprade či Oravskej Lesnej.

Ak hus o Martina uz po lade chodi

Verdikt: Žiadna významná korelácia.

Na sv. Barnabáša, búrky často strašia

Nemám informácie o búrkach, len o zrážkach. Ak je búrka, aj prší – opačne to však neplatí. Náš výsledok tak bude „horné ohraničenie“, ak neukáže významný vzťah pre dážď, pre búrky to bude ešte menej.

Samotný graf zrážok nám tiež nič povie, budeme porovnávať zrážky na Barnabáša (11. 6.) s 30 dňovým priemerom. Dostal sa do pranostiky, tak chceme vedieť, či si to Barnabáš naozaj zaslúžil!

Barnabas Burky

Verdikt: Tu to vyzerá ceokom zaujímavo – niektoré roky dosahuje zrážkovosť niekoľkonásobok priemeru. Barnabáš je však v strede leta a vieme, ako to bežne vyzerá. Niekoľko dní sú horúčavy a následne príde obrovský lejak. Sem-tam pripadne na Barnabáša, inokedy zas nie. Napríklad týždeň po ňom je Vratislav, týždeň pred ním Lenka a o oboch by sme mohli sformulovať podobné pranostiky. Dá sa však rozumieť tomu, ako táto pranostika vznikla, naozaj v tomto období občas silno zaprší.

Barnabas Vratko
Barnabas Lenka

Na sv. Václava býva záplava

Veľmi podobné ako Barnabáš, len iný dátum (28.9.) a odvoláva sa priamo na zrážky.

Zaplava na Vacvala

Verdikt: Podobne ako u Barnabáša, ide o evidente daždivé obdobie, nie vždy však prischne dážď (hehe) práve na tento dátum.

Ak mrzne na sv. Gertrúdu, bude mrznúť ešte mesiac

Bude porovnávať, či mrzlo na sv. Gertrúdu (1 alebo 0) a počet dní, ktoré mrzlo nasledujúci mesiac. Táto pranostika sa vzťahuje k 17.3., aj keď tam má po novom meniny Ľubica – takže sa pranostika vlatne vzťahuje aj na ňu!

Mraz na Gertrudu

Vertikt: Takmer nikde to nesedí, len veľmi malá korelácia. Jediná zaujímavá je v Oravskej Lesnej – tam je totiž mráz na Gertrúdu aj mesiac po nej pomerne často.

Medardova kvapka 40 dní kvapká

Tu je interpretácia pomerne jasné. Spočítame koľko dní pršalo (aspoň 1mm) od Medarda, výsledok bude medzi 0 a 40.

Medardova kvapka

Verdikt: Medardova kvapka nekvapká 40 dní, špeciálne v Hurbanove nie. Ale v Oravskej Lesnej k tomu občas nemali ďaleko! Zaujímavý pohľad na túto pranostiku nájdete aj na stránke SHMU.

Ak pripadne Nový rok na pondelok, veští to ostrú zimu

Toto bolo trochu otravné, musel som doprogramovať overovanie dátumu (1 ak je 1.1. pondelok, ináč 0), porovnával som s priemernou minimálnou teplotou v januári a februári (dokopy).

Novy rok pondelok

Verdikt: Podľa očakávaní nič výrazné, prírodu nezaujíma, ako dni voláme (aj keď v princípe by to mohlo odhaliť prípadný sedemročný cyklus).

Keď je január biely, november je zelený

Biely január beriem tak, že veľa snežilo (zrážky), zelený november zas, že je teplo. Očakávame kladnú koreláciu. Zaujímavé je, že sú dátumy veľmi vzdialené.

Verdikt: Stále nič významné (všetko ďaleko od 1), ale Hurbanovo vyzerá zaujímavo, stále však (takmer určite) ide len o štatistickú chybu.

Suchý marec, mokrý máj – bude humno ako raj

Táto pranostika znie pomerne priamočiaro, očakávame negatívnu koreláciu medzi zrážkami počas týchto dvoch mesiacov. Raj v humne ignorujeme.

Suchy marec

Verdikt: Nie, nebude.
(Pár ľudí napísalo, že podľa nich je to kombinovaná pranostika, ak je súchý marec a mokrý máj, potom bude v humne raj. Možno, neviem. V takom prípade to nie je pranostika v zmysle predpovede počasia a nedokážeme ju posúdiť.)

Keď nie je zima v januári, bude v apríli a v máji

Pekné, priamočiare! Očakávame negatívnu koreláciu medzi teplotami v januári a apríli s májom dokopy.

Zima v januari

Verdikt: Dočkali sme sa miernej korelácie, cez 0.3! Ale je pozitívna, čiže studený január znamená aj studený apríl (a naopak). To asi nie je tak prekvapivé – proste ide o studený či teplý rok.

Koľko mračien na Jakuba, toľko snehu v zime

Porovnáme oblačnosť na Jakuba (25. júla) so zrážkami v decembri a (nasledujúcom) januári.

Oblaky Jakub

Verdikt: Nečakal som žiaden súvis, príde mi to ako úplne náhodné prepojenie. Prvé tri mestá to potvrdili, Oravská Lesná má istý náznak, ale stále iba veľmi jemný (konzistentný s tým, že ide len o štatistickú odchýľku).

A tak ďalej

Začína byť jasné, že pranostiky nie sú podložené silnou štatistikou. Spracoval ešte 10 ďalších, neukazujú nič zaujímavé. Ak aj dostaneme trošku väčšiu koreláciu, má opačné znamienko (keď malo byť teplejšie bolo chladnejšie a naopak). Ak vás zaujímajú, rozkliknite ďalšie okienko.

Ďalšie pranostiky

Apríl v daždi, máj v kvete

April v dazdi

Keď je v januári mnoho snehu, býva marec suchý

Január studený, marec teplý

Studeny januar

Mnoho snehu v januári, málo vody v apríli a máji

Sneh v januari

V januári sneh a blato, vo februári mnoho mrazov zato

V januari sneh a blato

Ak Nový rok pripadne na nedeľu, bude mierna zima

Ak v máji neprší, jún to dovrší

Keď január vodu pustí, v ľad ju zas marec zhustí

Ako je teplo na sv. Jakuba, tak bude zima na Vianoce

Biele vianoce, zelená veľká noc / Čierne vianoce, biela veľká noc

Vlastná pranostika

Vedeli by sme si, len tak zo srandy, vymyslieť vlastnú pranostiku? Vyberme si napríklad Hurbanovo a pozrime sa, že ktoré dni v roku majú korelované teploty. V horizontálnom smere idú dni v roku, vo vertikálnom miera korelácie s nasledujúci dňami. Usekol som to na jednom týždni, je malá šanca, že by boli vzdialenejšie dni výrazne prepojené.

Korelacia teplot

Sýte miesta na mape ozančujú silno korelované dni, bledé nekorelované a modré antikorelované dni. Všimnite si jednu vec – najviac sú korelované dni na začiatku a konci roka, teda v zime. To ale celkom dobre poznáme, vtedy bývajú menšie teplotné výkyvy ako v lete.

Jeden z najprepojenejších párov dní je 31.1. (Emil) a 6.2. (Dorota). Korelácia ich minimálnej teploty je až 0.55! Dá sa tomu veriť – jednoducho to znamená, že sa vtedy mení počasie len veľmi pomaly.

Poďme si vymyslieť vlastnú pranostiku. Niečo na štýl: Ak je zima na Emila, bude zima aj na Dorotu. Obsahovo toto, ale trochu poetickejšie. Čo tak:

Keď Emil drkoce zubami, Dorota bude spať nad kachľami.

Vedátor

Ja si myslím, že môže byť! Aspoň v Hurbanove sedí parádne. V ostatných mestách si tiež hanbu nerobí.

Vedátorská pranostika

Ako pranostiky prežili?

Ako sme mali možnosť vidieť – žiadna pranostika neplatí úplne, aspoň nie pre tieto štyri mestá. Niektoré platia iba trochu, len tak v náznakoch. Prečo sa teda pranostiky šírili ďalej?

Môj názor je taký, že ide o tzv. confirmation bias (chyba skreslenia). Keď si niečo myslíme, prijmeme ľahšie fakty, ktoré tento názor podporujú. Predstavte si, že veríme tomu, že Katarína na ľade prinesie Vianoce na blate. Prvý rok sa tak naozaj stane a povie si: „Aha! Presne podľa očakávaní.“ Druhý rok to neplatí, Katarína aj Vianoce sú na ľade. Nesedí to a nevenujeme tomu pozornosť. Tretí rok to zas neplatí, štvrtý tiež nie, ale pozor, piaty rok zase presne podľa pranostiky. Keď to budeme robiť dostatočne dlho, tak budeme mať v pamäti nespočet príklad, kedy pranostika sedela. Situácie, kedy nesedeli, si tak nevšímame a tak nám vyšumeli z pamäti.

Takéto skreslenie sa netýka len pranostík, deformuje náš obraz o takmer všetkom okolo nás. Skutočné ponaučenie z tohto článku nie je, že pranostiky nefungujú. Skutočné ponaučenie tkvie v tom, prečo aj napriek svojej nefunčknosti prežili. Ktoré z vecí, ktoré si mýslime o svete okolo nás vychádza zo skutočnosti a ktoré sú len tradované dojmy?

Tento Vedátorský projekt ma veľmi bavil, splatil som s ním svoj starý dlh (voči sebe). Jasné, dalo by sa ísť ďalej – zobrať viac pranostík, preskúmať viac miest, ísť ďalej do minulosti a dáta spracovať ešte podrobnejšie. Nech sa páči! Zaberá to dosť času, ak v tom chce niekto pokračovať, poteším sa. Osobne si napríklad myslím, že by sa určením oblastí, v ktorých pranostiky sedia najviac dal odhadnúť ich pôvod a ten porovnať so zisteniami folkloristov.

Oblačnosť na Jakuba neveští množstvo sneho v zime a Medardova kvapka nekvapká 40 dní, no aj tak ide o sympatickú snahu našich predkov nájsť systém vo svete okolo nás. Dnes máme modernú meteorológiu a klimatológiu, počasie je stále kľúčovým faktorom našich životov a rozvoja našej spoločnosti. Dnešné metódy sú oveľa presnejšie, prepovedať počasie na niekoľko dni je však stále veľmi ťažké, od istého bodu (aspoň zatiaľ) prakticky nemožné. Pranostiky tak slúžia na česť dávnym generáciám, ktoré sa rozhodli s touto výzvou popasovať.

[Samuel]

Zdroj úvodného obrázku: Pavol Socháň. Všetky ostatné obrázky/grafy od Vedátora.

One thought on “Dá sa veriť pranostitkám? (alebo štatistická korelácia v praxi)

Pridaj komentár