Stopnje svobode za neodvisnost v dvosmerni tabeli

Število stopinj svobode neodvisnost dveh kategoričnih spremenljivk je podana s preprosto formulo: (r - 1)(c - 1). Tukaj r je število vrstic in c je število stolpcev v dvosmerna miza vrednosti kategorijske spremenljivke. Preberite nadaljevanje, če želite izvedeti več o tej temi in razumeti, zakaj ta formula daje pravilno številko.

Ozadje

En korak v procesu mnogih hipotezni testi je določitev števila stopenj svobode. Ta številka je pomembna, ker za verjetnostne porazdelitve ki vključujejo družino distribucij, kot je hi-kvadratna porazdelitev, število stopinj svoboda določa natančno porazdelitev iz družine, ki bi jo morali uporabljati v svoji hipotezi test.

Stopnje svobode predstavljajo število svobodnih odločitev, ki jih lahko sprejmemo v dani situaciji. Eden od testov hipoteze, ki zahteva, da določimo stopnjo svobode, je hi-kvadrat preizkus neodvisnosti dveh kategoričnih spremenljivk.

Testi za samostojnost in dvosmerne tabele

Preizkus chi-kvadrata za neodvisnost nas zahteva, da sestavimo dvosmerno tabelo, ki je znana tudi kot tabela ob nepredvidljivih dogodkih. Ta vrsta tabele ima

instagram viewer
r vrstice in c stolpcev, ki predstavljajo r ravni ene kategorijske spremenljivke in c ravni druge kategorične spremenljivke. Če torej ne štejemo vrstic in stolpcev, v katere beležimo vsote, obstaja skupno število rc celice v dvosmerni tabeli.

Test hi-kvadrat za neodvisnost nam omogoča, da preizkusimo hipotezo, da je kategorična spremenljivke so med seboj neodvisne. Kot smo že omenili, je r vrstice in c stolpci v tabeli nam dajo (r - 1)(c - 1) stopnje svobode. Morda pa ni takoj jasno, zakaj je to pravilno število stopenj svobode.

Število stopinj svobode

Če želite videti, zakaj (r - 1)(c - 1) je pravilna številka, to situacijo bomo podrobneje preučili. Recimo, da poznamo mejne vsote za vsako od ravni naših kategoričnih spremenljivk. Z drugimi besedami, poznamo skupno za vsako vrstico in skupno za vsak stolpec. Za prvo vrsto so c stolpcev v naši tabeli, tako da obstajajo c celice. Ko poznamo vrednosti vseh, razen ene od teh celic, potem, ker poznamo celoto vseh celic, je preprosta algebra težava določiti vrednost preostale celice. Če bi izpolnili te celice naše tabele, bi lahko vstopili c - 1 od njih prosto, nato pa preostalo celico določimo s skupno število vrstic. Tako obstajajo c - 1 stopnja svobode za prvo vrsto.

Tako nadaljujemo v naslednji vrsti in spet jih je c - 1 stopnja svobode. Ta postopek se nadaljuje, dokler ne pridemo do predzadnje vrstice. Vsaka od vrstic razen zadnje prispeva c - 1 stopnja svobode skupaj. Do trenutka, ko imamo vse, razen zadnje vrstice, lahko torej določimo vse vnose zadnje vrstice, ker poznamo vsoto stolpcev. To nam daje r - 1 vrstica s c - 1 stopnja svobode v vsaki od teh, skupaj (r - 1)(c - 1) stopnje svobode.

Primer

To vidimo na naslednjem primeru. Recimo, da imamo dvosmerno tabelo z dvema kategoričnimi spremenljivkami. Ena spremenljivka ima tri stopnje, druga pa dve. Predpostavimo, da poznamo vsote vrstic in stolpcev za to tabelo:

Stopnja A Stopnja B Skupaj
1. stopnja 100
2. stopnja 200
3. stopnja 300
Skupaj 200 400 600

Formula napoveduje, da obstajata (3-1) (2-1) = 2 stopnji svobode. To vidimo na naslednji način. Predpostavimo, da v zgornjo levo celico napolnimo številko 80. To bo samodejno določilo celotno prvo vrstico vnosov:

Stopnja A Stopnja B Skupaj
1. stopnja 80 20 100
2. stopnja 200
3. stopnja 300
Skupaj 200 400 600

Zdaj, če vemo, da je prvi vnos v drugi vrstici 50, potem vpišemo preostali del tabele, ker poznamo skupno vsako vrstico in stolpec:

Stopnja A Stopnja B Skupaj
1. stopnja 80 20 100
2. stopnja 50 150 200
3. stopnja 70 230 300
Skupaj 200 400 600

Tabela je v celoti izpolnjena, vendar smo imeli le dve prosti izbiri. Ko so bile te vrednosti znane, je bil preostali del tabele popolnoma določen.

Čeprav nam običajno ni treba vedeti, zakaj je toliko svobode, je dobro vedeti, da koncept stopenj svobode v resnici samo uporabljamo v novih razmerah.