22. decembra 2024
statistika

Nebojme sa štatistiky

V živote sú isté len tri veci: smrť, dane a že pod príspevok o priemernom zárobku v krajine niekto napíše: „To kde toľkoto zarábajú? To je čisté klamstvo!“

Druhý najobľúbenejší komentár je opakovanie Churchillovho výroku, že veriť môžete len štatistike, ktorú sami sfalšujete.

Existujú tri hlavné problémy, ktoré môže štatistika mať. Po prvé, môže vychádza zo zlých dát. Po druhé, dáta môžu byť správne, ale sú chybne spracované. No a po tretie, dobré dáta, správne spracovanie – no chybná interpretácia. A to už nie je problém štatistiky, ale skôr nás.

Dovolím si tvrdiť, že so štatistikou máme problém hlavne kvôli bodu tri – nevieme ju správne interpretovať. Samotnou podstatou štatistiky je zobrať obrovské množstvo informácií a zjednodušiť ho. Je dôležité vedieť, za akých podmienok toto zjednodušenie vzniklo a čo sa ním stratilo.

Prvým príkladom môže byť ten z úvodu. Zárobky v celej populácií sú zjednodušené na jednu hodnotu – priemer. Predstavte si teraz dve modelové krajiny. V prvej zarábajú všetci 1000€, v druhej majú jedného človeka, čo zarába milión a zbytok zarába 500€, v priemere však tiež zarábajú 1000€. Obe krajiny majú rovnaký priemerný zárobok, no typický občan druhej krajiny má oproti tej prvej len polovičný zárobok!

Ako sa nenechať zmiasť priemerom? Malo by nás zaujímať, ako veľmi dáta oproti priemeru lietajú – teda aká veľké je štatistická odchýlka. Niekedy sa udáva ako hodnota za znamienkom ±. Alebo môžeme namiesto priemeru použiť medián.

Ešte lepšie je sa zaujímať, ako vyzerá celé štatistické rozdelenie. Teda, aká je zastúpenie jednotlivých skupín. Niekedy môže vyzerať jednoducho, hodnoty sú pravidelne rozložené okolo priemeru, napríklad známe Gaussovo rozdelenie. Typicky je však situácia zložitejšia. Napríklad štatistické rozdelenie výšky ľudí môže mať dve maximá, jedno odpovedá mužom a druhé ženám. V takom prípade má priemer menšiu výpovednú hodnotu.

Druhý problém je taký, že štatistika bežne nevzniká z celej populácie – ako v príklade so zárobkami – ale len z nejakej štatistickej vzorky. Napríklad ako prieskum pred voľbami, do ktorého neoslovia všetkých ľudí, ale len približne tisíc.

Vtedy je pri interpretácií dát dôležité vedieť, že z akej vzorky daný výsledok vzišiel. Ak si napríklad politická strana spraví volebný prieskum na svojej FB stránke, takmer určite dopadne inak, ako prieskum spravený inde.

Podobne je napríklad na mieste opatrnosť, ak sa snažíme určiť pravdepodobnosť, že bude niekto hospitalizovaný s COVIDom. Iný výsledok dostaneme, ak sa pozeráme na celú populáciu, iný ak len na zaočkovanú časť a iný, ak na nezaočkovanú.

Štatistika je veľmi silný nástroj. Keď sa použije správne, odhalí nám javy a súvislosti, ktoré by ináč zostali ukryté v horách dát a informácií. Vyžaduje si však správne zaobchádzanie a porozumenie. Musíme rozumieť tomu, ako funguje, na čo ju použiť a aké ma limity. Bez toho sme ako človek, čo sa snaží zamenať lístie vŕtačkou a sťažuje sa, že vŕtačka nefunguje správne.

[Samuel]

 

Pridaj komentár