Kako najti notranje in zunanje ograje

click fraud protection

Ena od značilnosti nabora podatkov, ki jo je pomembno ugotoviti, je, ali vsebuje odstranjevalce. Naročniki intuitivno veljajo za vrednosti v našem naboru podatkov, ki se močno razlikujejo od večine preostalih podatkov. Seveda je to razumevanje zapuščencev dvoumno. Da bi se štelo za zunanjega, koliko naj vrednost odstopa od preostalih podatkov? Je tisto, kar en raziskovalec imenuje odsek, ki se ujema z drugim? Da bi zagotovili nekaj doslednosti in kvantitativnega ukrepa za določanje odbitkov, uporabljamo notranje in zunanje ograje.

Za iskanje notranjih in zunanjih ograj niza podatkov najprej potrebujemo nekaj drugih opisna statistika. Začeli bomo z računanjem kvartilov. To bo privedlo do interkvartilnega obsega. Končno bomo s temi izračuni za nami lahko določili notranjo in zunanjo ograjo.

Kvartili

The prvi in ​​tretji kvartil so del povzetek pet številk katerega koli niza kvantitativnih podatkov. Začnemo z iskanjem mediane ali sredine točke podatkov, potem ko so vse vrednosti navedene v naraščajočem vrstnem redu. Vrednosti, manjše od mediane, kar ustreza približno polovici podatkov. Najdemo mediano te polovice nabora podatkov in to je prvi kvartil.

instagram viewer

Na podoben način zdaj obravnavamo zgornjo polovico nabora podatkov. Če za to polovico podatkov najdemo mediano, imamo tretji kvartil. Ti kvartili dobijo ime po deljenju, če podatke razdelijo na štiri enake velikosti ali četrtine. Z drugimi besedami, približno 25% vseh vrednosti podatkov je manj kot v prvem četrtletju. Na podoben način je približno 75% vrednosti podatkov manjše od tretje četrtine.

Interkvatilni domet

Naslednje moramo najti interkvartilni razpon (IQR). To je lažje izračunati kot prvi kvartil q1 in tretji kvartil q3. Vse, kar moramo storiti, je, da vzamemo razliko v teh dveh kvartilih. Tako dobimo formulo:

IQR = V3 - V1

IQR nam pove, kako razširjena je srednja polovica našega nabora podatkov.

Poiščite notranje ograje

Zdaj lahko najdemo notranje ograje. Začnemo z IQR in to številko pomnožimo z 1,5. Nato to številko odštejemo od prve četrtine. To številko dodamo tudi v tretjem kvartilu. Ti dve številki tvorita našo notranjo ograjo.

Poiščite Zunanje ograje

Pri zunanjih ograjah začnemo z IQR in to številko pomnožimo s 3. Nato odštejemo to številko od prve četrtine in jo dodamo v tretjo četrtino. Ti dve številki sta naši zunanji ograji.

Zaznavanje zunanjih igralcev

Odkrivanje outliers zdaj postane tako enostavno kot določitev, kje se podatki nanašajo na naše notranje in zunanje ograje. Če je posamezna vrednost podatkov bolj ekstremna kot katera koli od naših zunanjih ograj, potem je to zunanja oblika in jo včasih imenujemo močna zunanja oblika. Če je naša vrednost med ustreznimi notranjimi in zunanjimi ograjami, potem je ta vrednost sumljiva zunanja ali blaga oblika. Videli bomo, kako to deluje s spodnjim primerom.

Primer

Recimo, da smo izračunali prvo in tretjo četrtino svojih podatkov in te vrednosti ugotovili na 50 oziroma 60. Interkvartilni razpon IQR = 60 - 50 = 10. Nato vidimo, da je 1,5 x IQR = 15. To pomeni, da so notranje ograje na 50 - 15 = 35 in 60 + 15 = 75. To je 1,5 x IQR manj kot prvi kvartil in več kot tretji kvartil.

Zdaj izračunamo 3 x IQR in vidimo, da je to 3 x 10 = 30. Zunanje ograje so 3 x IQR bolj skrajne kot prva in tretja četrtina. To pomeni, da so zunanje ograje 50 - 30 = 20 in 60 + 30 = 90.

Vse vrednosti podatkov, ki so manjše od 20 ali večje od 90, se štejejo za zunanje osebe. Vsake vrednosti podatkov, ki so med 29 in 35 ali med 75 in 90, so osumljenci.

instagram story viewer