Linearna regresija je statistična tehnika, ki se uporablja za spoznavanje razmerja med neodvisno spremenljivko (napovedovalec) in odvisno (merilno) spremenljivko. Če imate v svoji analizi več kot ene neodvisne spremenljivke, se to omenja kot več linearna regresija. Na splošno regresija raziskovalcu omogoča splošno vprašanje "Kaj je najboljši napovedovalec ???"
Recimo, da smo preučevali vzroke debelost, merjeno z indeksom telesne mase (BMI). Zlasti smo želeli preveriti, ali so naslednje spremenljivke pomembne napovedovalke človekovega ITM: število hitre hrane obroki, ki jih jemo na teden, število ur gledanja televizije na teden, število minut, porabljenih za vadbo na teden, in starši ' ITM. Linearna regresija bi bila dobra metodologija za to analizo.
Regresijska enačba
Ko izvajate regresijsko analizo z eno neodvisno spremenljivko, je regresijska enačba Y = a + b * X, kjer je Y odvisna spremenljivka, X je neodvisna spremenljivka, a je konstanta (ali prestrezanje) in b je the naklon regresijske črte
. Recimo, da je GPA najbolje napovedati z regresijsko enačbo 1 + 0,02 * IQ. Če bi študent imel IQ 130, bi bil njegov GPA 3,6 (1 + 0,02 * 130 = 3,6).Ko izvajate regresijsko analizo, v kateri imate več kot eno neodvisno spremenljivko, je regresijska enačba Y = a + b1 * X1 + b2 * X2 +… + bp * Xp Na primer, če bi želeli v analizo GPA vključiti več spremenljivk, kot so merila motivacije in samodiscipline, bi to uporabili enačba.
R-kvadrat
R-kvadrat, znan tudi kot koeficient določitve, je pogosto uporabljena statistika za oceno ustreznosti modela regresijske enačbe. Kako so vse vaše neodvisne spremenljivke dobre pri napovedovanju vaše odvisne spremenljivke? Vrednost R-kvadrata se giblje od 0,0 do 1,0 in se lahko pomnoži s 100, da dobimo odstotek variance razložil. Na primer, ko se vrnemo na našo regresijsko enačbo GPA z samo eno neodvisno spremenljivko (IQ)... Recimo, da je naša R-kvadrat za enačbo je bil 0,4. To bi lahko razlagali tako, da pomeni, da je 40% razlike v GPA razloženo z IQ. Če dodamo še dve naši drugi spremenljivki (motivacija in samodisciplina), se kvadrat R poveča na 0.6, to pomeni, da IQ, motivacija in samodisciplina skupaj razložijo 60% razlike v GPA zadetkov.
Regresijske analize se običajno izvajajo s pomočjo statistične programske opreme, kot sta SPSS ali SAS, zato se kvadrat R izračuna za vas.
Tolmačenje regresijskih koeficientov (b)
Koeficienti b iz zgornjih enačb predstavljajo moč in smer razmerja med neodvisnimi in odvisnimi spremenljivkami. Če pogledamo enačbo GPA in IQ, je 1 + 0,02 * 130 = 3,6, 0,02 koeficient regresije za spremenljivko IQ. To nam pove, da je smer odnosa pozitivna, tako da se s povečanjem IQ poveča tudi GPA. Če bi bila enačba 1 - 0,02 * 130 = Y, potem bi to pomenilo, da je odnos med IQ in GPA negativen.
Predpostavke
Obstaja več predpostavk o podatkih, ki jih je treba izpolniti, da se izvede analiza linearne regresije:
- Linearnost: Domnevamo, da je razmerje med neodvisnimi in odvisnimi spremenljivkami linearno. Čeprav te predpostavke ni mogoče nikoli v celoti potrditi, če pogledamo a graf raztrosa vaših spremenljivk lahko pomaga pri tej odločitvi. Če je ukrivljenost v razmerju prisotna, lahko razmislite o preoblikovanju spremenljivk ali izrecno omogočanju nelinearnih komponent.
- Običajnost: Domneva se, da je ostanki vaših spremenljivk je običajno razdeljen. To pomeni, da so napake v napovedi vrednosti Y (odvisna spremenljivka) razporejene tako, da se približajo normalni krivulji. Lahko pogledate histogrami ali običajne verjetnostne ploskve za pregled porazdelitve spremenljivk in njihovih preostalih vrednosti.
- Neodvisnost: Domnevamo, da so napake v napovedi vrednosti Y med seboj neodvisne (niso povezane).
- Homoscedastičnost: Domnevamo, da je variacija okoli regresijske črte enaka za vse vrednosti neodvisnih spremenljivk.
Vir
- StatSoft: Učbenik za elektronsko statistiko. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.