Ena od značilnosti nabora podatkov, ki jo je pomembno ugotoviti, je, ali vsebuje odstranjevalce. Naročniki intuitivno veljajo za vrednosti v našem naboru podatkov, ki se močno razlikujejo od večine preostalih podatkov. Seveda je to razumevanje zapuščencev dvoumno. Da bi se štelo za zunanjega, koliko naj vrednost odstopa od preostalih podatkov? Je tisto, kar en raziskovalec imenuje odsek, ki se ujema z drugim? Da bi zagotovili nekaj doslednosti in kvantitativnega ukrepa za določanje odbitkov, uporabljamo notranje in zunanje ograje.
Za iskanje notranjih in zunanjih ograj niza podatkov najprej potrebujemo nekaj drugih opisna statistika. Začeli bomo z računanjem kvartilov. To bo privedlo do interkvartilnega obsega. Končno bomo s temi izračuni za nami lahko določili notranjo in zunanjo ograjo.
Kvartili
The prvi in tretji kvartil so del povzetek pet številk katerega koli niza kvantitativnih podatkov. Začnemo z iskanjem mediane ali sredine točke podatkov, potem ko so vse vrednosti navedene v naraščajočem vrstnem redu. Vrednosti, manjše od mediane, kar ustreza približno polovici podatkov. Najdemo mediano te polovice nabora podatkov in to je prvi kvartil.
Na podoben način zdaj obravnavamo zgornjo polovico nabora podatkov. Če za to polovico podatkov najdemo mediano, imamo tretji kvartil. Ti kvartili dobijo ime po deljenju, če podatke razdelijo na štiri enake velikosti ali četrtine. Z drugimi besedami, približno 25% vseh vrednosti podatkov je manj kot v prvem četrtletju. Na podoben način je približno 75% vrednosti podatkov manjše od tretje četrtine.
Interkvatilni domet
Naslednje moramo najti interkvartilni razpon (IQR). To je lažje izračunati kot prvi kvartil q1 in tretji kvartil q3. Vse, kar moramo storiti, je, da vzamemo razliko v teh dveh kvartilih. Tako dobimo formulo:
IQR = V3 - V1
IQR nam pove, kako razširjena je srednja polovica našega nabora podatkov.
Poiščite notranje ograje
Zdaj lahko najdemo notranje ograje. Začnemo z IQR in to številko pomnožimo z 1,5. Nato to številko odštejemo od prve četrtine. To številko dodamo tudi v tretjem kvartilu. Ti dve številki tvorita našo notranjo ograjo.
Poiščite Zunanje ograje
Pri zunanjih ograjah začnemo z IQR in to številko pomnožimo s 3. Nato odštejemo to številko od prve četrtine in jo dodamo v tretjo četrtino. Ti dve številki sta naši zunanji ograji.
Zaznavanje zunanjih igralcev
Odkrivanje outliers zdaj postane tako enostavno kot določitev, kje se podatki nanašajo na naše notranje in zunanje ograje. Če je posamezna vrednost podatkov bolj ekstremna kot katera koli od naših zunanjih ograj, potem je to zunanja oblika in jo včasih imenujemo močna zunanja oblika. Če je naša vrednost med ustreznimi notranjimi in zunanjimi ograjami, potem je ta vrednost sumljiva zunanja ali blaga oblika. Videli bomo, kako to deluje s spodnjim primerom.
Primer
Recimo, da smo izračunali prvo in tretjo četrtino svojih podatkov in te vrednosti ugotovili na 50 oziroma 60. Interkvartilni razpon IQR = 60 - 50 = 10. Nato vidimo, da je 1,5 x IQR = 15. To pomeni, da so notranje ograje na 50 - 15 = 35 in 60 + 15 = 75. To je 1,5 x IQR manj kot prvi kvartil in več kot tretji kvartil.
Zdaj izračunamo 3 x IQR in vidimo, da je to 3 x 10 = 30. Zunanje ograje so 3 x IQR bolj skrajne kot prva in tretja četrtina. To pomeni, da so zunanje ograje 50 - 30 = 20 in 60 + 30 = 90.
Vse vrednosti podatkov, ki so manjše od 20 ali večje od 90, se štejejo za zunanje osebe. Vsake vrednosti podatkov, ki so med 29 in 35 ali med 75 in 90, so osumljenci.