Interval zaupanja za delež prebivalstva

Intervali zaupanja lahko uporabimo za oceno več populacije parametrov. Ena vrsta parametra, ki jo je mogoče oceniti z uporabo infekcijske statistike je delež prebivalstva. Mogoče bi na primer želeli vedeti odstotek ameriškega prebivalstva, ki podpira določen zakon. Za tovrstna vprašanja moramo najti interval zaupanja.

V tem članku bomo videli, kako sestaviti interval zaupanja za delež prebivalstva in preučili nekaj teorije, ki stoji za tem.

Splošni okvir

Začnemo z ogledom velike slike, preden se lotimo posebnosti. Vrsta intervala zaupanja, ki ga bomo upoštevali, je naslednje oblike:

Ocenite +/- mejo napake

To pomeni, da bomo morali določiti dve številki. Te vrednosti so ocena za želeni parameter, skupaj z mejo napake.

Pogoji

Preden izvedete kateri koli statistični test ali postopek, je pomembno, da se prepričate, da so izpolnjeni vsi pogoji. Za interval zaupanja za delež prebivalstva moramo poskrbeti za naslednje:

  • Imamo preprost naključni vzorec velikosti n od velike populacije
  • Naši posamezniki so bili izbrani neodvisno drug od drugega.
  • V našem vzorcu je vsaj 15 uspehov in 15 neuspehov.
instagram viewer

Če zadnja postavka ni zadovoljena, je mogoče naš vzorec nekoliko prilagoditi in uporabiti a plus štiri interval zaupanja. V nadaljevanju bomo domnevali, da so izpolnjeni vsi zgoraj navedeni pogoji.

Vzorec in deleži prebivalstva

Začnemo z oceno za naš delež prebivalstva. Tako kot za vzorčno povprečje uporabljamo vzorec, tako za oceno deleža prebivalstva uporabljamo vzorčni delež. Delež prebivalstva je neznan parameter. Delež vzorcev je statistika. To statistiko ugotovimo tako, da štejemo število uspehov v našem vzorcu in nato delimo s skupnim številom posameznikov v vzorcu.

Delež prebivalstva je označen s str in je samoumeven. Pri zapisu vzorčnega deleža je malo več. Vzorčni delež označujemo kot p̂, ta simbol pa beremo kot »p-klobuk«, ker je videti kot črka str s klobukom na vrhu.

To postane prvi del našega intervala zaupanja. Ocena p je p̂.

Vzorčna porazdelitev deleža vzorcev

Za določitev formule za mejo napake moramo razmišljati o porazdelitev vzorčenja od p̂. Vedeti bomo morali srednjo vrednost, standardni odklon in posebno porazdelitev, s katero delamo.

Vzorčna porazdelitev p̂ je binomna porazdelitev z verjetnostjo uspeha str in n preizkušnje. Ta vrsta naključne spremenljivke ima povprečje str in standardni odklon (str(1 - str)/n)0.5. S tem imata dve težavi.

Prva težava je, da je binomna porazdelitev lahko zelo težavna. Prisotnost tovarn lahko vodi do zelo velikega števila. Tu nam pomagajo pogoji. Dokler so izpolnjeni naši pogoji, lahko ocenimo binomno porazdelitev s standardno normalno porazdelitvijo.

Druga težava je, da standardni odklon uporabe p̂ str v svoji definiciji. Neznani parameter populacije je treba oceniti z uporabo istega parametra kot mejo napake. Ta krožna obrazložitev je težava, ki jo je treba odpraviti.

Izhod iz te težave je, da nadomestimo standardni odklon s svojo standardno napako. Standardne napake temeljijo na statističnih podatkih, ne na parametrih. Za oceno standardnega odklona se uporablja standardna napaka. Zaradi tega je strategija vredna tega, da nam vrednosti parametra ni več treba vedeti str.

Formula

Za uporabo standardne napake zamenjamo neznani parameter str s statistiko p̂. Rezultat je naslednja formula intervala zaupanja za populacijski delež:

p̂ +/- z * (p̂ (1 - p̂) /n)0.5.

Tu je vrednost z * določa naša stopnja zaupanja C. Za običajno normalno porazdelitev C odstotek običajne normalne porazdelitve je med -z * in z *. Skupne vrednosti za z * vključujejo 1.645 za 90% zaupanje in 1,96 za 95% zaupanje.

Primer

Poglejmo, kako ta metoda deluje s primerom. Recimo, da želimo z 95% zaupanja vedeti odstotek volilnega telesa v okrožju, ki se opredeli za demokratičnega. V tem okrožju izvedemo preprost naključni vzorec 100 ljudi in ugotovimo, da se jih 64 identificira kot demokrata.

Vidimo, da so izpolnjeni vsi pogoji. Ocena našega deleža prebivalstva je 64/100 = 0,64. To je vrednost vzorčnega deleža p̂ in je središče našega intervala zaupanja.

Število napak je sestavljeno iz dveh delov. Prva je z*. Kot smo rekli, za 95-odstotno zaupanje vrednost z* = 1.96.

Drugi del napake je naveden s formulo (p̂ (1 - p̂) /n)0.5. Nastavimo p̂ = 0,64 in izračunamo = standardna napaka je (0,64 (0,36) / 100)0.5 = 0.048.

Ti dve številki pomnožimo skupaj in dobimo mejo napake 0,09408. Končni rezultat je:

0.64 +/- 0.09408,

ali pa to lahko zapišemo kot 54.592% do 73.408%. Tako smo 95% prepričani, da je resnični delež prebivalcev demokratov nekje v območju teh odstotkov. To pomeni, da bo naša tehnika in formula dolgoročno zajela 95-odstotni delež prebivalstva.

Sorodne ideje

Na to vrsto intervala zaupanja so povezane številne ideje in teme. Lahko bi na primer izvedli test hipoteze, ki se nanaša na vrednost deleža prebivalstva. Lahko bi primerjali tudi dva deleža iz dveh različnih populacij.