A paradoks je izjava ali pojav, ki se na površini zdi protislovni. Paradoksi pomagajo razkriti osnovno resnico pod površjem, kar se zdi absurdno. Na področju statistike Simpsonov paradoks prikazuje, kakšne težave so posledica združevanja podatkov iz več skupin.
Z vsemi podatki moramo biti previdni. Od kod prihaja? Kako je bilo pridobljeno? In kaj pravzaprav pravi? Vse to so dobra vprašanja, ki bi si jih morali zastaviti ob predstavitvi podatkov. Zelo presenetljiv primer Simpsonovega paradoksa kaže, da včasih to, kar kažejo podatki, v resnici ni tako.
Pregled paradoksa
Recimo, da opazujemo več skupin in vzpostavljamo odnos oz korelacija za vsako od teh skupin. Simpsonov paradoks pravi, da se lahko, če združimo vse skupine skupaj in podatke pogledamo v strnjeni obliki, korelacija, ki smo jo opazili prej, obrne. Najpogosteje je to posledica skrivajočih se spremenljivk, ki niso bile upoštevane, včasih pa je to posledica številčnih vrednosti podatkov.
Primer
Da bi nekoliko bolj občutili Simpsonov paradoks, poglejmo naslednji primer. V določeni bolnišnici sta dva kirurga. Kirurg A operira na 100 bolnikov, 95 pa jih preživi. Kirurg B operira 80 bolnikov in 72 jih preživi. Mislimo, da je operacija v tej bolnišnici in da je preživetje operacije nekaj pomembnega. Oba kirurga želimo izbrati boljšega.
Podatke si ogledamo in jih uporabimo za izračun odstotka bolnikov kirurga A, ki so preživeli operacijo, in jih primerjamo s stopnjo preživetja bolnikov kirurga B.
- 95 bolnikov od 100 je preživelo pri kirurgu A, tako da jih je preživelo 95/100 = 95%.
- 72 bolnikov od 80 je preživelo pri kirurgu B, tako da jih je preživelo 72/80 = 90%.
Na podlagi te analize, katerega kirurga bi izbrali za zdravljenje? Zdi se, da je kirurg A varnejša stava. Toda, ali je to res?
Kaj pa, če bi izvedli nadaljnje raziskave podatkov in ugotovili, da je bolnišnica prvotno upoštevala dve različni vrsti operacij, vendar sta nato zbrala vse podatke, da bi poročala o vsaki od njih kirurgi. Niso vse operacije enake, nekatere so veljale za visoko tvegane urgentne operacije, druge pa bolj rutinske narave, ki so bile načrtovane vnaprej.
Med 100 bolniki, ki jih je kirurg A zdravil, je bilo 50 tveganih, trije so umrli. Ostalih 50 je veljalo za rutinske, od teh sta dve umrli. To pomeni, da pri rutinskem operativnem posegu bolnik, ki ga zdravi kirurg A, znaša 48/50 = 96% stopnjo preživetja.
Zdaj natančneje pogledamo podatke za kirurga B in ugotovimo, da je bilo od 80 bolnikov 40 visoko ogroženih, od tega sedem umrlih. Ostalih 40 je bilo rutinskih in le eden je umrl. To pomeni, da ima bolnik 39 -40 = 97,5-odstotno preživetje za rutinsko operacijo s kirurgom B.
Kateri kirurg se zdi boljši? Če bo vaša operacija rutinska, je kirurg B dejansko boljši kirurg. Če pogledamo vse operacije, ki jih izvajajo kirurgi, je A bolje. To je precej kontratutivno. V tem primeru kriva spremenljivka vrste operacije vpliva na kombinirane podatke kirurgov.
Zgodovina Simpsonovega paradoksa
Simpsonov paradoks je poimenovan po Edwardu Simpsonu, ki je ta paradoks prvič opisal v prispevku iz leta 1951 "Interpretacija interakcije v tabelah ob nepredvidljivih dogodkih" iz Časopis kraljevega statističnega društva. Pearson in Yule sta opazila podoben paradoks pol stoletja prej kot Simpson, zato Simpsonov paradoks včasih imenujejo tudi učinek Simpson-Yule.
Paradoksa so na širokem področju zelo raznolika na področjih, kot so športna statistika in podatki o brezposelnosti. Vsakič, ko se podatki združijo, pazite, da se ta paradoks prikaže.