Razredi histograma: informacije in primeri

Res ni pravila, koliko naj bi bilo pouka. Glede števila razredov je treba upoštevati nekaj stvari. Če bi obstajal samo en razred, bi vsi podatki sodili v ta razred. Naš histogram bi bil preprosto en sam pravokotnik, katerega višina je podana s številom elementov v našem naboru podatkov. To ne bi bilo v veliko pomoč oz uporaben histogram.

Na drugi skrajnosti bi lahko imeli množico razredov. To bi povzročilo množico palic, od katerih nobena ne bi bila verjetno zelo visoka. S to vrsto histograma bi bilo težko določiti razlikovalne značilnosti od podatkov.

Za zaščito pred tema dvema skrajnostma imamo pravilo, s katerim lahko določimo število razredov histograma. Kadar imamo razmeroma majhen nabor podatkov, običajno uporabljamo le okoli pet razredov. Če je nabor podatkov relativno velik, potem uporabljamo približno 20 razredov.

Še enkrat poudarimo, da gre za pravilo, ne pa za absolutno statistično načelo. Obstajajo dobri razlogi za različno število razredov za podatke. Primer tega bomo videli spodaj.

instagram viewer

Preden razmislimo o nekaj primerih, bomo videli, kako ugotoviti, kaj so pravzaprav razredi. Ta postopek začnemo z iskanjem domet naših podatkov. Z drugimi besedami, od najvišje vrednosti podatkov odštejemo najnižjo vrednost podatkov.

Kadar je nabor podatkov sorazmerno majhen, delimo na pet. Kvocient je širina razredov našega histograma. Verjetno bomo morali v tem postopku nekaj zaokrožiti, kar pomeni, da skupno število razredov morda ne bo pet.

Kadar je nabor podatkov relativno velik, razpon razdelimo na 20. Tako kot prej nam tudi ta težava z delitvijo daje širino razredov za naš histogram. Kot smo že videli, lahko naše zaokroževanje povzroči nekoliko več ali nekaj manj kot 20 razredov.

V obeh velikih ali majhnih primerih nabora podatkov naredimo prvi razred na točki, nekoliko manjši od najmanjše vrednosti podatkov. To moramo storiti tako, da prva vrednost podatkov sodi v prvi razred. Ostali naslednji razredi so določeni s širino, ki je bila nastavljena, ko smo razdelili razpon. Vemo, da smo pri zadnjem razredu, ko ta razred vsebuje našo najvišjo podatkovno vrednost.

Za primer bomo določili primerno širino razreda in razrede za podatkovni niz: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Vidimo, da je v našem naboru 27 podatkovnih točk. To je sorazmerno majhen niz, zato bomo razpon razdelili na pet. Razpon je 19,2 - 1,1 = 18,1. Delimo 18,1 / 5 = 3,62. To pomeni, da bi bila primerna širina razreda 4. Naša najmanjša vrednost podatkov je 1,1, zato prvi razred začnemo na točki, manjši od tega. Ker so naši podatki sestavljeni iz pozitivnih številk, bi bilo smiselno, da bi prvi razred šel od 0 do 4.

Recimo za primer tega, da obstaja preizkus z večkratnimi izbirami s 35 vprašanji in 1000 dijakov na srednji šoli. Želimo oblikovati histogram, ki prikazuje število učencev, ki so na testu dosegli določene ocene. Vidimo, da je 35/5 = 7 in da je 35/20 = 1,75. Kljub pravilom, ki nam omogoča izbiro razredov širine 2 ali 7, ki jih bomo uporabili za svoj histogram, je morda bolje, da imamo razrede širine 1. Ti razredi bi ustrezali vsakemu vprašanju, na katero je dijak pravilno odgovoril na testu. Prvo od teh bi bilo osredotočeno na 0, zadnje pa na 35.