Razpršilec je vrsta grafa, ki se uporablja za predstavljanje seznanjeni podatki. Pojasnjevalna spremenljivka je prikazana vzdolž vodoravne osi, odzivna spremenljivka pa je zgrajena vzdolž navpične osi. Eden od razlogov za uporabo te vrste grafa je iskanje razmerij med spremenljivkami.
Najosnovnejši vzorec, ki ga je treba iskati v naboru parnih podatkov, je ravno črto. Skozi katero koli dve točki lahko potegnemo ravno črto. Če sta v našem raztresenem vozilu več kot dve točki, večino časa ne bomo mogli več narisati črte, ki gre skozi vsako točko. Namesto tega narišemo črto, ki poteka skozi sredino točk in prikaže celoten linearni trend podatkov.
Ko gledamo točke v našem grafu in želimo potegniti črto skozi te točke, se pojavi vprašanje. Katero črto naj narišemo? Obstaja neskončno število črt. Če uporabimo samo oči, je jasno, da bi lahko vsak človek, ki gleda v razpršilec, ustvaril nekoliko drugačno črto. Ta dvoumnost je težava. Želimo imeti dobro opredeljen način, da vsi dobijo isto vrstico. Cilj je matematično natančen opis, katero črto je treba narisati. Najmanj kvadratov
regresijska linija je ena taka linija skozi naše podatkovne točke.Najmanj kvadratov
Ime vrstice z najmanj kvadratki pojasnjuje, kaj počne. Začnemo z zbirko točk s koordinatami, ki jih poda (xjaz, yjaz). Vsaka premica bo potekala med temi točkami in bo šla nad ali pod vsako od njih. Razdalja od teh točk do premice lahko izračunamo tako, da izberemo vrednost x in nato odšteti opaženo y koordinata, ki temu ustreza x Iz y koordinata naše črte.
Različne črte skozi isti niz točk bi dale različen niz razdalj. Želimo, da so te razdalje čim manjše. Toda obstaja težava. Ker so naše razdalje lahko pozitivne ali negativne, seštevek vseh teh razdalj med seboj odpove. Vsota razdalj bo vedno enaka nič.
Rešitev tega problema je odpraviti vsa negativna števila z razvrščanjem razdalj med točkami in črto. Tako dobimo zbirko negativnih števil. Cilj, ki smo ga našli, da bi najprimernejšo črto našli, je enak čim manjši vsoti teh razdalj. Tu ji na pomoč priskoči račun. Proces diferenciacije v računu omogoča minimiziranje vsote razdalj kvadrata od dane črte. To pojasnjuje besedno zvezo "najmanj kvadratov" v našem imenu za to vrstico.
Line of Best Fit
Ker črta najmanjših kvadratov zmanjša razdaljo kvadrata med črto in našimi točkami, lahko to črto predstavljamo kot tisto, ki najbolje ustreza našim podatkom. Zato je črta najmanjših kvadratov znana tudi kot linija najboljšega prileganja. Od vseh možnih črt, ki jih je mogoče narisati, je črta najmanjših kvadratov najbližja množici podatkov kot celote. To lahko pomeni, da bo naša vrstica zamudila katero koli točko v našem naboru podatkov.
Značilnosti črte najmanjših kvadratov
Obstaja nekaj funkcij, ki jih ima vsaka najmanj kvadratna črta. Prva zanimiva točka se nanaša na naklon naše linije. Pobočje ima povezavo z korelacijski koeficient naših podatkov. Pravzaprav je naklon premice enak r (sy/ sx). Tukaj s x označuje standardni odklon x koordinate in s y standardni odklon y koordinate naših podatkov. Znak koeficienta korelacije je neposredno povezan z znakom naklona naše črte najmanjših kvadratov.
Druga značilnost črte najmanjših kvadratov se nanaša na točko, skozi katero gre. Medtem ko y Presek najmanj črte kvadratkov s statističnega stališča morda ni zanimiv, obstaja ena točka. Vsaka najmanjša črta kvadrata prehaja skozi srednjo točko podatkov. Ta srednja točka ima x koordinata, ki je pomeni od x vrednosti in a y koordinata, ki je srednja vrednost y vrednote.