Razlike med korelacijo in vzročnostjo

Nekega dne je na kosilu mlada ženska pojedla veliko skledo sladoleda, kolega fakultete pa je stopil do nje in ji rekel: "Bolje je, bodi previden, visok je statističnikorelacija med sladoledom in utapljanjem. " Gotovo ga je videla zmedeno, saj je še nekaj podrobneje opisal. "Dnevi z največjo prodajo sladoleda vidijo tudi to, da se večina ljudi utopi."

Ko je končala moj sladoled, sta kolega razpravljala o dejstvu, da samo zato, ker je ena spremenljivka statistično povezana z drugo, to še ne pomeni, da je ena vzrok za drugo. Včasih se v ozadju skriva spremenljivka. V tem primeru se v podatkih skriva dan v letu. V vročih poletnih dneh se prodaja več sladoleda kot snežni zimski. Poleti plava več ljudi, zato se poleti bolj utaplja kot pozimi.

Pazite na varne spremenljivke

Zgornja anekdota je odličen primer tistega, kar se imenuje skrivajoča se spremenljivka. Kot pove že njegovo ime, je lahko lupljiva spremenljivka neizbežna in je težko zaznati. Ko ugotovimo, da sta dva številčna nabora podatkov močno povezana, bi se vedno morali vprašati: "Ali lahko kaj drugega povzroča to razmerje?"

instagram viewer

Sledijo primeri močne korelacije, ki jo povzroča hripava spremenljivka:

  • Povprečno število računalnikov na osebo v državi in ​​povprečna življenjska doba te države.
  • Število gasilcev ob požaru in škoda, ki jo je požar povzročil.
  • Višina osnovnošolca in njegova bralna stopnja.

V vseh teh primerih je odnos med spremenljivkami zelo močan. To je običajno označeno s korelacijski koeficient ki ima vrednost blizu 1 ali -1. Ni važno, koliko je ta korelacijski koeficient blizu 1 ali -1, ta statistika ne more pokazati, da je ena spremenljivka vzrok druge spremenljivke.

Zaznavanje skrivnih spremenljivk

Po svoji naravi je zaznavne spremenljivke težko zaznati. Ena od strategij, če je na voljo, je preučiti, kaj se s podatki zgodi sčasoma. To lahko razkrije sezonske trende, kot je primer na primer sladoleda, ki se zatemnejo, ko se podatki združijo. Druga metoda je pogledati outliers in poskusite ugotoviti, kaj jih razlikuje od drugih podatkov. Včasih to namiguje na dogajanje v zakulisju. Najboljši način ukrepanja je biti proaktiven; previdno preučite predpostavke in oblikovalske poskuse.

Zakaj je pomembno?

V uvodnem scenariju predpostavimo, da je dobronamerni, vendar statistično neobveščeni kongresnik predlagal, da bi prepovedal ves sladoled, da bi preprečil utopitev. Takšen predlog zakona bi neprijeten velikemu prebivalstvu prisilil več podjetij v stečaj in odpravil na tisoče delovnih mest, ko se je industrija sladoleda v državi zaprla. Kljub najboljši nameri ta predlog zakona ne bi zmanjšal števila smrtnikov zaradi utopitve.

Če se vam zdi ta primer nekoliko predaleč, razmislite o tem, kar se je dejansko zgodilo. V zgodnjih 1900-ih so zdravniki opazili, da nekateri dojenčki skrivnostno umirajo v spanju zaradi zaznanih težav z dihali. Temu se je imenovalo smrt jaslic in je danes znano kot SIDS. Ena od stvari, ki so jo obdržale obdukcije, ki so jih izvajali pri umrlih zaradi SIDS-a, je povečan timus, žleza, ki se nahaja v prsnem košu. Zdravniki so na podlagi korelacije povečanih timusnih žlez pri dojenčkih s SIDSom domnevali, da nenormalno velik timus povzroča nepravilno dihanje in smrt.

Predlagana rešitev je bila, da se timus skrči z veliko sevanja ali da se žleza v celoti odstrani. Ti postopki so imeli visoko stopnjo umrljivosti in so povzročili še več smrti. Žalostno je, da teh operacij ni bilo treba izvesti. Poznejše raziskave so pokazale, da so se ti zdravniki zmotili v svojih predpostavkah in da timus ni odgovoren za SIDS.

Korelacija ne povzroča implicirane vzroke

Zgoraj navedeno bi nas moralo zaustaviti, ko menimo, da se statistični dokazi uporabljajo za utemeljitev stvari, kot so zdravniški režim, zakonodaja in predlogi za izobraževanje. Pomembno je, da se dobro razlaga pri interpretaciji podatkov, zlasti če bodo rezultati, ki vključujejo korelacijo, vplivali na življenje drugih.

Ko kdo reče, "Študije kažejo, da je A vzrok za B, in nekatere statistike to podkrepijo", bodite pripravljeni na to odgovorite, "korelacija ne pomeni vzročne zveze." Vedno bodite pozorni, kaj se skriva pod podatkov.