Intervali zaupanja so en del infekcijske statistike. Osnovna ideja te teme je oceniti vrednost neznane populacije parameter z uporabo statističnega vzorca. Ne moremo samo oceniti vrednosti parametra, temveč lahko svoje metode prilagodimo tudi za oceno razlike med dvema povezanima parametroma. Na primer, morda bi želeli najti razliko v odstotku moške ameriške volilne populacije, ki podpira določen zakon v primerjavi z žensko volilno populacijo.
Videli bomo, kako narediti to vrsto izračuna z izgradnjo intervala zaupanja za razliko dveh deležev prebivalstva. V postopku bomo preučili nekaj teorije, ki stoji za tem izračunom. Videli bomo nekaj podobnosti v tem, kako konstruiramo a interval zaupanja za en delež prebivalstva kot tudi a interval zaupanja za razliko dveh populacijskih sredstev.
Splošnosti
Preden si ogledamo točno določeno formulo, ki jo bomo uporabili, razmislimo o splošnem okviru, v katerega se ujema ta vrsta intervala zaupanja. Oblika vrste intervala zaupanja, ki si ga bomo ogledali, je podana z naslednjo formulo:
Ocenite +/- mejo napake
Veliko intervalov zaupanja je tovrstnih. Moramo izračunati dve številki. Prva od teh vrednosti je ocena za parameter. Druga vrednost je meja napake. Ta napaka pomeni dejstvo, da imamo oceno. Interval zaupanja nam ponuja vrsto možnih vrednosti za naš neznani parameter.
Pogoji
Pred vsakim izračunom se moramo prepričati, da so izpolnjeni vsi pogoji. Če želimo najti interval zaupanja za razliko dveh deležev prebivalstva, moramo poskrbeti za naslednje:
- Imamo dva preprosti naključni vzorci od velike populacije. Tu "velik" pomeni, da je populacija vsaj 20-krat večja od velikosti vzorca. Velikosti vzorca bodo označene s n1 in n2.
- Naši posamezniki so bili izbrani neodvisno drug od drugega.
- V vsakem od naših vzorcev je vsaj deset uspehov in deset neuspehov.
Če zadnja točka na seznamu ni zadovoljena, potem je to mogoče najti. Spremenimo lahko plus štiri interval zaupanja gradnjo in pridobitev zanesljivi rezultati. Ko gremo naprej, domnevamo, da so izpolnjeni vsi zgoraj navedeni pogoji.
Vzorci in deleži prebivalstva
Zdaj smo pripravljeni sestaviti svoj interval zaupanja. Začnemo z oceno razlike med našimi deleži prebivalstva. Obe deleži prebivalstva so ocenjeni z vzorčnim deležem. Ta vzorčna razmerja so statistični podatki, ki jih ugotovimo tako, da delimo število uspehov v vsakem vzorcu in jih nato delimo s pripadajočo velikostjo vzorca.
Prvi delež prebivalstva označujemo s str1. Če je število uspehov v našem vzorcu iz te populacije k1, potem imamo vzorčni delež k1 / n1.
To statistiko označujemo s p̂1. Ta simbol beremo kot "p1-hat ", ker je videti kot simbol p1 s klobukom na vrhu.
Na podoben način lahko izračunamo vzorčni delež iz naše druge populacije. Parameter te populacije je str2. Če je število uspehov v našem vzorcu iz te populacije k2, naš vzorčni delež pa je p̂2 = k2 / n2.
Ti dve statistiki postaneta prvi del našega intervala zaupanja. Ocena za str1 je p̂1. Ocena za str2 je p̂2. Torej ocena za razliko str1 - str2 je p̂1 - p̂2.
Vzorčna porazdelitev razlike vzorčnih deležev
Nato moramo pridobiti formulo za mejo napake. Da bi to naredili, bomo najprej razmislili o tem porazdelitev vzorčenja od p̂1 . To je binomna porazdelitev z verjetnostjo uspeha str1 in n1 preizkušnje. Sredina te porazdelitve je delež str1. Standardni odklon te vrste naključne spremenljivke ima varianto str1 (1 - str1 )/n1.
Porazdelitev vzorčenja p̂2 je podobno kot pri p̂1 . Preprosto spremenite vse indekse od 1 do 2 in imamo binomno porazdelitev s srednjo vrednostjo p2 in variacije str2 (1 - str2 )/n2.
Zdaj potrebujemo nekaj rezultatov matematične statistike, da lahko določimo vzorčno porazdelitev p̂1 - p̂2. Sredina te porazdelitve je str1 - str2. Ker se odstopanja seštevajo, vidimo, da je varianca porazdelitve vzorčenja str1 (1 - str1 )/n1 + str2 (1 - str2 )/n2. Standardni odklon porazdelitve je kvadratni koren te formule.
Potrebnih je nekaj prilagoditev. Prva je, da je formula za standardni odklon p̂1 - p̂2 uporablja neznane parametre str1 in str2. Seveda, če bi te vrednosti resnično poznali, potem to sploh ne bi bil zanimiv statistični problem. Razlike med nam ne bi bilo treba ocenjevati str1 in str2.. Namesto tega bi lahko preprosto izračunali natančno razliko.
To težavo je mogoče odpraviti z izračunom standardne napake in ne s standardnim odklonom. Vse, kar moramo storiti, je nadomestiti deleže prebivalstva z vzorčnimi deleži. Standardne napake se izračunajo na podlagi statističnih podatkov namesto parametrov. Standardna napaka je uporabna, ker učinkovito oceni standardni odklon. Kaj to pomeni za nas je, da nam ni treba več poznati vrednosti parametrov str1 in str2. .Ker so ta vzorčna razmerja znana, je standardna napaka podana s kvadratnim korenom naslednjega izraza:
p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.
Druga točka, ki jo moramo obravnavati, je posebna oblika razdelitve vzorčenja. Izkazalo se je, da lahko za približanje vzorčne razdelitve p distribution uporabimo normalno porazdelitev1 - p̂2. Razlog za to je nekoliko tehničen, vendar je opisan v naslednjem odstavku.
Oba p̂1 in p̂2 imajo porazdelitev vzorčenja, ki je binomna. Vsako od teh binomnih porazdelitev je mogoče precej približati običajni porazdelitvi. Tako p̂1 - p̂2 je naključna spremenljivka. Nastane kot linearna kombinacija dveh naključnih spremenljivk. Vsaka od njih se približa z normalno porazdelitvijo. Zato je vzorčna porazdelitev p̂1 - p̂2 je tudi normalno porazdeljen.
Formula intervala zaupanja
Zdaj imamo vse, kar potrebujemo, da sestavimo svoj interval zaupanja. Ocena je (p̂1 - p̂2) in meja napake je z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Vrednost, za katero vnesemo z * narekuje raven zaupanja C. Običajno uporabljene vrednosti za z * so 1.645 za 90% zaupanje in 1,96 za 95% zaupanje. Te vrednosti za z * označujejo del standardne normalne porazdelitve, kjer natančno C odstotek porazdelitve je med -z * in z *.
Naslednja formula nam daje interval zaupanja za razliko dveh deležev prebivalstva:
(p̂1 - p̂2) +/- z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5