Primer dobrega testa fitnesa

The hi-kvadrat test dobrega prileganja je koristno za primerjavo a teoretični model do opazovanih podatkov. Ta test je vrsta bolj splošnega testa hi-kvadrat. Kot pri vsaki temi iz matematike ali statistike je lahko koristno delati s primerom, da bi razumeli, kaj se dogaja, na primeru testa dobrega fit fit-kvadrat.

Razmislite o standardnem paketu mlečne čokolade M&M. Obstaja šest različnih barv: rdeča, oranžna, rumena, zelena, modra in rjava. Recimo, da nas zanima distribucija teh barv in vprašamo, ali se vseh šest barv pojavlja v enakem razmerju? To je vprašanje, na katero je mogoče odgovoriti s preizkusom primernosti.

Nastavitev

Začnemo z opazovanjem nastavitve in zakaj je primernost testa fit. Naša spremenljivka barve je kategorična. Obstaja šest stopenj te spremenljivke, kar ustreza šestim možnim barvam. Domnevali bomo, da bodo M&M, ki jih štejemo, preprost naključni vzorec iz populacije vseh M&S.

Ničelne in alternativne hipoteze

The nične in alternativne hipoteze za našo primernost preizkusa kondicije odražajo domnevo, ki jo dajemo o prebivalstvu. Ker testiramo, ali se barve pojavljajo v enakih razmerjih, bo naša nična hipoteza, da se vse barve pojavljajo v enakem razmerju. Bolj formalno, če

instagram viewer
str1 je delež prebivalstva rdečih bombonov, str2 je populacijski delež pomarančnih bombonov in tako naprej, potem je nična hipoteza taka str1 = str2 =... = str6 = 1/6.

Alternativna hipoteza je, da vsaj eden od deležev populacije ni enak 1/6.

Dejanska in pričakovana štetja

Dejansko šteje število bombonov za vsako od šestih barv. Pričakovano štetje se nanaša na tisto, kar bi pričakovali, če bi bila nična hipoteza resnična. Pustili bomo n naj bo velikost našega vzorca. Pričakovano število rdečih bombonov je str1 n ali n/6. Pravzaprav je za ta primer pričakovano število bonbonov za vsako od šestih barv preprosto n krat strjazali n/6.

Chi-kvadratna statistika za dobroto fit

Zdaj bomo izračunali hi-kvadrat statistiko za določen primer. Recimo, da imamo preprost naključni vzorec 600 M&M bombonov z naslednjo distribucijo:

  • 212 bonbonov je modre barve.
  • 147 bonbonov je oranžno.
  • 103 bonboni so zeleni.
  • 50 bonbonov je rdečih.
  • 46 bonbonov je rumene barve.
  • 42 bonbonov je rjavih.

Če bi bila ničelna hipoteza resnična, bi bila pričakovana štetja za vsako od teh barv (1/6) x 600 = 100. Zdaj to uporabljamo pri izračunu statistike hi-kvadrat.

Prispevek k naši statistiki izračunamo iz vsake barve. Vsak je v obliki (dejansko - pričakovano)2/Expected.:

  • Za modro imamo (212 - 100)2/100 = 125.44
  • Za oranžno imamo (147 - 100)2/100 = 22.09
  • Za zeleno imamo (103 - 100)2/100 = 0.09
  • Za rdečo imamo (50 - 100)2/100 = 25
  • Za rumeno imamo (46 - 100)2/100 = 29.16
  • Za rjavo imamo (42 - 100)2/100 = 33.64

Nato seštejemo vse te prispevke in ugotovimo, da je naša statistika hi-kvadrat 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.

Stopnje svobode

Število stopinj svobode saj je test dobrega fitna preprosto za eno manjšo od števila stopenj naše spremenljivke. Ker je bilo šest barv, imamo 6 - 1 = 5 stopinj svobode.

Chi-kvadratna tabela in P-vrednost

Statistični podatki o hi-kvadratu 235,42, ki smo jih izračunali, ustrezajo določenemu mestu v hi-kvadratni porazdelitvi s petimi stopnjami svobode. Zdaj potrebujemo p-vrednost, za določitev verjetnosti pridobitve testne statistike vsaj tako ekstremno kot 235.42, ob predpostavki, da je ničelna hipoteza resnična.

Za ta izračun se lahko uporabi Microsoftov Excel. Ugotavljamo, da ima naša testna statistika s petimi stopnjami svobode p-vrednost 7,29 x 10-49. To je izredno majhna p-vrednost.

Pravilo odločitve

Odločimo se, ali bomo zavrnili ničelno hipotezo glede na velikost p-vrednosti. Ker imamo zelo majhno p-vrednost, zavračamo nično hipotezo. Zaključujemo, da M&M niso enakomerno razporejene med šestimi različnimi barvami. Za določitev intervala zaupanja za populacijski delež posamezne barve bi lahko uporabili nadaljnjo analizo.