Določitev odsekov v statistiki

Oddajatelji so vrednosti podatkov, ki se močno razlikujejo od večine nabora podatkov. Te vrednosti ne presegajo splošnega trenda, ki je prisoten v podatkih. Pozorno preučevanje niza podatkov za iskanje odpuščenih povzroča nekaj težav. Čeprav je mogoče, če uporabimo vretence, enostavno videti, da se nekatere vrednosti razlikujejo od preostalih podatkov, koliko različnih vrednosti je treba šteti za zunanje? Ogledali si bomo točno določeno meritev, ki nam bo dala objektivni standard, kaj pomeni zunaj.

Interkvatilni domet

The interkvartilni razpon je tisto, kar lahko uporabimo, da ugotovimo, ali je ekstremna vrednost res zunanja. Interkvartilni razpon temelji na delu petštevilčni povzetek podatkovnega niza, in sicer prvi kvartil in tretji kvartil. Izračun interkvartilnega razpona vključuje eno samo aritmetično operacijo. Vse, kar moramo storiti, da bi našli interkvartilni obseg, je, da od tretjega kvartila odštejemo prvi kvartil. Nastala razlika nam pove, kako razširjena je srednja polovica naših podatkov.

instagram viewer

Določitev odbitkov

Če pomnožimo interkvartilno območje (IQR) na 1,5, bomo lahko ugotovili, ali je določena vrednost zunanja. Če od prve četrtine odštejemo 1,5 x IQR, se vrednosti podatkov, ki so manjše od tega števila, štejejo za odštekance. Podobno, če dodamo 1,5 x IQR v tretji četrtini, se vse vrednosti podatkov, ki so večje od tega števila, štejejo za odpuščene.

Močni outliersi

Nekateri odstranjevalci kažejo izjemno odstopanje od preostalega nabora podatkov. V teh primerih lahko naredimo korake od zgoraj, pri čemer spremenimo samo število, na katerega pomnožimo IQR, in določimo določeno vrsto zunanjega dela. Če od prve četrtine odštejemo 3,0 x IQR, se katera koli točka, ki je pod to številko, imenuje močan odsek. Na enak način nam dodajanje 3.0 x IQR k tretjemu četrtletju omogoča, da definiramo močne odbitke tako, da pogledamo točke, ki so večje od tega števila.

Slabi izpuščaji

Poleg močnih odpuščenih obstaja še ena kategorija za odpuščene. Če je vrednost podatkov zunanja oblika, ni pa močna, potem rečemo, da je vrednost šibka. Ogledali si bomo te koncepte, ko bomo raziskali nekaj primerov.

Primer 1

Najprej predpostavimo, da imamo nabor podatkov {1, 2, 2, 3, 3, 4, 5, 5, 9}. Številka 9 zagotovo izgleda, da bi lahko bila zunanja. Je veliko večja od katere koli druge vrednosti iz preostalega niza. Da bi objektivno ugotovili, ali je 9 zunanji, uporabimo zgornje metode. Prvi kvartil je 2, tretji kvartil pa 5, kar pomeni, da je interkvartilni razpon 3. Interkvartilni razpon pomnožimo z 1,5 in dobimo 4,5, nato pa to številko dodamo v tretjo četrtino. Rezultat 9,5 je večji od vseh naših podatkov. Zato ni nobenih odtujiteljev.

Primer 2

Zdaj si ogledamo isti niz podatkov kot prej, le da je največja vrednost 10 namesto 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Prvi kvartilni, tretji kvartilni in interkvartilni razpon so identični primeru 1. Ko k tretjemu četrtinu dodamo 1,5 x IQR = 4,5, je vsota 9,5. Ker je 10 večja od 9,5, velja za zunanjo.

Je 10 močan ali šibek zunanji? Za to moramo pogledati 3 x IQR = 9. Ko v tretjo četrt dodamo 9, na koncu dobimo vsoto 14. Ker 10 ni večji od 14, ni močan zunanji. Tako sklepamo, da je 10 šibek odsek.

Razlogi za prepoznavanje odmevnih ljudi

Vedno moramo biti na preži za zunaj. Včasih jih povzroči napaka. Drugi časi odbitki kažejo na prisotnost prej neznanega pojava. Naslednji razlog, da moramo biti pozorni pri preverjanju, ali so odpuščeni, je zaradi vsega tega opisna statistika ki so občutljivi za oderuške. Srednja vrednost, standardni odklon in korelacijski koeficient za seznanjeni podatki je le nekaj tovrstnih statistik.

instagram story viewer