Grozdna analiza je statistična tehnika, ki se uporablja za določitev, kako je mogoče različne enote - na primer ljudi, skupine ali družbe - združiti zaradi skupnih značilnosti. Znano tudi kot grozdanje, je raziskovalno orodje za analizo podatkov, katerega cilj je razvrstiti različne predmete v skupine na tak način, da pripadajo isti skupini, imajo najvišjo stopnjo povezanosti in kadar ne pripadajo isti skupini, je njihova stopnja združevanja minimalno. Za razliko od nekaterih drugih statistične tehnike, strukture, ki jih odkrijejo z analizo grozdov, ne potrebujejo razlage ali razlage - v podatkih odkrije strukturo, ne da bi pojasnil, zakaj obstajajo.
Kaj je grozdenje?
Grozdanje obstaja v skoraj vseh vidikih našega vsakdanjega življenja. Vzemite na primer predmete v trgovini z živili. Na istih ali bližnjih lokacijah so vedno prikazane različne vrste predmetov - meso, zelenjava, soda, žitarice, izdelki iz papirja itd. Raziskovalci pogosto želijo enako storiti s podatki in združiti predmete ali predmete v grozde, ki imajo smisel.
Če vzamemo primer družboslovja, recimo, da gledamo države in jih želimo združiti v skupine na podlagi značilnosti, kot so oddelek za delo, vojaške, tehnološke ali izobražene populacije. Ugotovili bi, da imajo Velika Britanija, Japonska, Francija, Nemčija in ZDA podobne značilnosti in bi se združile skupaj. Uganda, Nikaragva in Pakistan bi bili prav tako združeni v različno skupino, ker imajo različen nabor lastnosti, vključno z nizko stopnjo bogastva, enostavnejšimi delitvami dela, razmeroma nestabilnimi in nedemokratičnimi političnimi institucijami in nizkimi tehnološkimi razvoj.
Grozdna analiza se običajno uporablja v raziskovalni fazi raziskav, kadar jih raziskovalec nima vnaprej zasnovane hipoteze. Običajno ni edina uporabljena statistična metoda, ampak se izvaja v zgodnjih fazah projekta, da bi pomagali voditi preostale analize. Zaradi tega preskušanje pomembnosti običajno niti ni ustrezno niti ni primerno.
Obstaja več različnih vrst analize grozdov. Najpogosteje se uporabljata združevanje s sredstvi K in hierarhično združevanje.
K-pomeni grozd
K-pomeni združevanje obravnava opažanja v podatkih kot predmete, ki imajo lokacije in razdalje drug od drugega (upoštevajte, da razdalje, ki se uporabljajo v združevanju, pogosto ne predstavljajo prostorskih razdalj). Predmete razdeli na K medsebojno izključujoče se gruče, tako da so predmeti znotraj vsake skupine kot čim bližje drug drugemu in hkrati, čim dlje od predmetov v drugih grozdih. Vsak grozd je nato značilen po svojem srednja ali sredinska točka.
Hierarhična gruča
Hierarhično združevanje je način za istočasno raziskovanje združevanja podatkov na različnih lestvicah in razdaljah. To stori tako, da ustvari grozdno drevo z različnimi nivoji. Za razliko od skupin K-pomeni, drevo ni en sam niz gruč. Drevo je drevo hierarhija na več ravneh, kjer se grozdi na eni ravni združijo kot grozdi na naslednji višji ravni. Uporabljeni algoritem se začne z vsakim primerom ali spremenljivko v ločeni skupini in nato združuje grozde, dokler ne ostane samo eden. To omogoča raziskovalcu, da se odloči, katera stopnja združevanja je najprimernejša za njegovo raziskovanje.
Izvedba grozdne analize
Večina programi za statistiko lahko izvaja grozdno analizo. V SPSS izberite analizirati iz menija, torej klasificirati in analiza grozdov. V SAS, the proc grozd lahko uporabimo funkcijo.
Posodobil Nicki Lisa Cole, dr.