„Jano, koho budeš voliť?“
„Budem voliť kandidáta X!“
Môžete na základe takéhoto prieskumu zhodnotiť, že kandidát X má stopercentnú podporu? Asi tušíte, že nie. Keď sa opýtate 10 ľudí, získate lepší obraz – časť by volila X a časť Y. Postupne ako pridávate počet opýtaných, sa vaša odpoveď spresňuje. Štatistická chyba, ktorá bola daná veľkosťou vašej vzorky, postupne klesá. Táto chyba klesá relatívne pomaly, je úmerná odmocnine počtu opýtaných, a tak si od istého momentu poviete, že vám ďalšie spresňovanie už nestojí za to. Predsa len, robenie prieskumu stojí peniaze.
Toto poznáme vo vede. Robíte meranie v laboratóriu a typicky nespravíte len jedno. Trochu sa menia podmienky v laboratóriu, trochu iná teplota, trochu inak vám zafunguje senzor, rozhodli ste sa merať trochu inú časť. Opakovaním merania odstraňujete tieto náhodné chyby a výsledok sa postupne blíži k istej hodnote.
V laboratóriu však poznáme aj iný typ chyby. Ak máte zle zapojený konektor a meria len polovičný prúd, opakovaním merania túto chyby neznížite – každé jedno meraniu ju zopakuje. Preto sa v laboratóriu robia kalibračné merania, zmeriate niečo, kde výsledok poznáte a ak vám to vychádza zle, viete, že robíte niečo systematicky nesprávne. Narozdiel od štatistickej chyby, systematická chyba sa opakovaním nezmenšuje.
Toto sa deje nielen v laboratóriách, ale teoreticky aj v prieskumoch. Ak kandidáta X volia prevažne mladí ľudia a kandidáta Y zas dôchodcovia, tak nezískate presný výsledok ak sa namiesto 1000 vysokoškolákov opýtate 100 000 vysokoškolákov. Toto, samozrejme, prieskumné agentúry vedia a veľká časť ich práce je o vyskladaní reprezentatívnej vzorky. Niekedy sa však môže stať, že napríklad ľudia naprieč celou populáciou zatĺkajú, že by volili istého kandidáta. Ak napríklad každý desiaty volič politika Y neprizná – napríklad sa s tým spája spoločenská stigma – máte ťažko odstrániteľnú chybu prieskumu.
Niečo také sa podľa odhadov stalo aj vo voľbách v USA, kde zaúradoval (nejeden) Trumpov „skrytý“ volič. Zaujímavosťou je, že ak predpokladáte, že v prieskume vzniká takáto nepresnosť, môžete sa ju pokúsiť obísť. Napríklad sa nepýtate: „Koho by ste volili?“ ale „Koho podľa vás volí váš sused?“ Jeden človek, ktorý stavil na voľby milióny dolárov si spravil takýto prieskum a zistil, že konvenčné prieskumy – ktoré boli typicky blízko 50:50, majú naozaj systematickú chybu, ktorá síce nebola veľká, no bola konzistentná a v tak tesnej situácii rozhodujúca.
Hovorí sa, že štatistiky zavádzajú. Nemyslím si. Problém je v užívateľoch. V prvom kroku chcem zo štatistiky získať nejakú informáciu. No zároveň z nich chcem vedieť, nakoľko tejto informácií môžem veriť. Aká veľká bola vzorka a ako bola vybraná? Aké sú možné systematické chyby a čo sa spravilo, aby sa im zamedzilo? A aký tento zásah priniesol možné nové chyby? Väčšina ľudí sa uspokojí len so základným výsledkom, jej dôveryhodnosť už je druhoradá. Štatistika je fascinujúci nástroj, ktorý nám z mála umožňuje poznať veľa – no ako každý nástroj, treba ho vedieť používať správne.
[Samuel]