Čiščenje podatkov za analizo podatkov v sociologiji

Čiščenje podatkov je ključni del analize podatkov, zlasti ko zbirate svoje lastne količinske podatke. Ko zberete podatke, jih morate vnesti v računalniški program, kot je SAS, SPSS ali Excel. Med tem postopkom se bodo pojavile napake, ne glede na to, ali gre to ročno ali računalniški optični bralnik. Ne glede na to, kako natančno so bili vneseni podatki, so napake neizogibne. To lahko pomeni napačno kodiranje, napačno branje zapisanih kod, napačno zaznavanje zatemnjenih znamk, manjkajoče podatke ipd. Čiščenje podatkov je postopek odkrivanja in odpravljanja teh napak pri kodiranju.

Obstajata dve vrsti čiščenja podatkov, ki ju je treba izvesti na nabor podatkov. Možno je čiščenje kode in čiščenje v nepredvidljivih razmerah. Oboje je ključnega pomena za postopek analize podatkov, saj če boste prezrti, boste skoraj vedno ustvarili zavajajoče ugotovitve raziskav.

Čiščenje s kodo

Vsaka podana spremenljivka bo imela določen nabor odgovorov in kod, ki se bodo ujemali z vsako izbiro odgovora. Na primer spremenljivko

instagram viewer
spol bodo imele tri izbire odgovorov in kode za vsakega: 1 za moškega, 2 za žensko in 0 za odgovor. Če imate anketiranca 6 za to spremenljivko, je jasno, da je bila storjena napaka, saj to ni možna koda odgovorov. Čiščenje s kodo je postopek preverjanja, ali se v datoteki podatkov pojavijo samo kode, dodeljene izbiram odgovorov za vsako vprašanje (možne kode).

Nekateri računalniški programi in statistični programski paketi so na voljo za preverjanje vnosa podatkov za te vrste napak med vnosom podatkov. Tu uporabnik definira možne kode za vsako vprašanje pred vnosom podatkov. Nato se vnese številka zunaj vnaprej določenih možnosti, se prikaže sporočilo o napaki. Če bi uporabnik na primer poskusil vnesti številko 6 za spol, lahko računalnik piska in zavrne kodo. Drugi računalniški programi so zasnovani za preverjanje nelegitimnih kod v izpolnjenih podatkovnih datotekah. To pomeni, če jih med postopkom vnosa podatkov ne bi preverili, kot je bilo opisano, obstajajo načini za preverjanje datotek glede napak pri kodiranju po vnosu podatkov.

Če ne uporabljate računalniškega programa, ki med postopkom vnosa podatkov preverja napake kodiranja, lahko najdete nekaj napak, tako da preprosto preverite porazdelitev odgovorov na posamezne elemente v podatkih nabor. Na primer, lahko ustvarite frekvenčno tabelo za spremenljivko spol in tukaj bi videli številko 6, ki je bila napačno vnesena. Nato lahko ta vnos poiščete v podatkovni datoteki in ga popravite.

Čiščenje ob nepredvidljivih dogodkih

Druga vrsta podatkov čiščenje imenujemo čiščenje v nepredvidljivih razmerah in je nekoliko bolj zapleteno kot čiščenje z možnostjo kode. Logična struktura podatkov lahko določi omejitve glede odzivov določenih anketirancev ali nekaterih spremenljivk. Čiščenje ob nepredvidenih dogodkih je postopek preverjanja, ali takšni podatki dejansko imajo samo tisti primeri, ki bi morali imeti podatke o določeni spremenljivki. Recimo, da imate vprašalnik, v katerem vprašate anketirance, kolikokrat so zanosili. Vsi anketiranci bi morali imeti odgovor kodiran v podatkih. Moški pa morajo biti prazni ali imeti posebno kodo, če ne bodo odgovorili. Če je na primer kakšen moški v podatkih označen kot 3 nosečnosti, veste, da je prišlo do napake in ga je treba popraviti.

Reference

Babbie, E. (2001). Praksa družbenih raziskav: 9. izdaja. Belmont, Kalifornija: Wadsworth Thomson.