Včasih številčni podatki pridejo v parih. Morda a paleontolog meri dolžine stegnenice (kost noge) in nadlahtnice (ročne kosti) pri petih fosilih iste vrste dinozavrov. Morda bi bilo smiselno razmisliti o dolžini rok ločeno od dolžin nog in izračunati stvari, kot so povprečje ali standardni odmik. Kaj pa, če je raziskovalcu radovedno vedeti, ali obstaja povezava med tema dvema meritvama? Ni dovolj, da roke pogledate ločeno od nog. Namesto tega naj paleontolog pari dolžine kosti za vsako okostje in uporabi območje statistika znan kot korelacija.
Kaj je korelacija? V zgornjem primeru domnevamo, da je raziskovalec preučil podatke in dosegel ne zelo presenetljivo Posledica tega je bila, da so imeli fosili dinozavrov z daljšimi rokami tudi daljše noge in fosili s krajšimi rokami krajše noge. Številčni podatki so pokazali, da so bile vse podatkovne točke združene blizu ravne črte. Raziskovalec bi potem rekel, da obstaja močna ravna linija oz korelacija, med dolžino ročnih kosti in kosti nog fosilov. Potrebno je še nekaj dela, da povemo, kako močna je korelacija.
Korelacija in raztresenost
Ker vsaka podatkovna točka predstavlja dve številki, je dvodimenzionalni razpršilec v veliko pomoč pri vizualizaciji podatkov. Recimo, da dejansko imamo svoje podatke o podatkih o dinozavrih, pet fosilov pa ima naslednje meritve:
- Femur 50 cm, humerus 41 cm
- Femur 57 cm, humerus 61 cm
- Femur 61 cm, humerus 71 cm
- Femur 66 cm, humerus 70 cm
- Femur 75 cm, humerus 82 cm
Zgornji graf povzroči razkroj podatkov z meritvijo stegnenice v vodoravni smeri in meritvijo nadlahtnice v navpični smeri. Vsaka točka predstavlja meritve enega od okostij. Na primer, točka spodaj levo ustreza okostju št. 1. Točka zgoraj desno je okostje # 5.
Vsekakor je videti, da bi lahko narisali ravno črto, ki bi bila zelo blizu vsem točkam. Toda kako lahko zagotovo povemo? Bližina je v očeh gledalca. Kako vemo, da se naše definicije "bližine" ujemajo z nekom drugim? Ali obstaja kakšen način, da bi lahko približali to bližino?
Korelacijski koeficient
Če želimo objektivno izmeriti, kako blizu so podatki po ravni črti, se koeficient korelacije reši. The korelacijski koeficient, običajno označeni r, je resnično število med -1 in 1. Vrednost r meri trdnost korelacije na podlagi formule, pri čemer odpravlja vsako subjektivnost v procesu. Pri razlagi vrednosti vrednosti je treba upoštevati več smernic r.
- Če r = 0, potem so točke popolna zmečkanina, pri čemer ni nobenega ravno premca med podatki.
- Če r = -1 oz r = 1, potem se vse podatkovne točke popolnoma postavijo na črto.
- Če r je vrednost, ki ni ta ekstrem, potem je rezultat manj kot popolno prileganje ravne črte. V naborih podatkov iz resničnega sveta je to najpogostejši rezultat.
- Če r je pozitivno, potem se vrstica nadaljuje z a pozitiven naklon. Če r je negativna, potem premica pada z negativnim naklonom.
Izračun koeficienta korelacije
Formula koeficienta korelacije r je zapleteno, kar lahko vidimo tukaj. Sestavine formule so srednja in standardna odstopanja obeh nizov številskih podatkov, pa tudi število podatkovnih točk. Za večino praktičnih aplikacij r je dolgočasno računati z roko. Če so bili naši podatki vneseni v program za računanje ali preglednice s statistični ukazi, potem je običajno izračunana vgrajena funkcija r.
Omejitve korelacije
Čeprav je korelacija močno orodje, obstajajo nekatere omejitve pri njegovi uporabi:
- Korelacija nam popolnoma ne pove vsega o podatkih. Sredstva in standardni odkloni so še naprej pomembni.
- Podatke je mogoče opisati z krivuljo, ki je bolj zapletena kot ravna črta, vendar se to ne bo pokazalo pri izračunu r.
- Odpadniki močno vplivajo na korelacijski koeficient. Če v naših podatkih opazimo kakršne koli odkritosti, bi morali biti previdni, na podlagi katerih zaključkov izhajamo r.
- Ker sta dva niza podatkov povezana, to še ne pomeni, da je ena vzrok drugega.