Recimo, da imamo a naključni vzorec iz populacije, ki vas zanima. Morda bomo imeli teoretični model za način, kako populacija se distribuira. Vendar pa je lahko več prebivalstva parametrov katerih vrednosti ne poznamo. Najvišja ocena verjetnosti je eden od načinov za določitev teh neznanih parametrov.
Osnovna ideja ocene največje verjetnosti je, da določimo vrednosti teh neznanih parametrov. To naredimo tako, da maksimiramo povezano funkcijo gostote skupne verjetnosti oz verjetnostna masa funkcija. To bomo podrobneje videli v nadaljevanju. Nato bomo izračunali nekaj primerov ocene največje verjetnosti.
Koraki za največjo oceno verjetnosti
Zgornjo razpravo lahko povzamemo z naslednjimi koraki:
- Začnite z vzorcem neodvisnih naključnih spremenljivk X1, X2,... Xn iz skupne porazdelitve, vsaka s funkcijo gostote verjetnosti f (x; θ1,.. .θk). Thete so neznani parametri.
- Ker je naš vzorec neodvisen, verjetnost pridobitve določenega vzorca, ki ga opazimo, ugotovimo tako, da množimo naše verjetnosti skupaj. To nam daje verjetnostno funkcijo L (θ 1,.. .θk) = f (x)1 ;θ1,.. .θk) f (x2 ;θ1,.. .θk)... f (x)n ;θ1,.. .θk) = Π f (xjaz ;θ1,.. .θk).
- Nato uporabimo Izračun najti vrednosti theta, ki maksimizirajo našo verjetnostno funkcijo L.
- Natančneje razlikujemo verjetnostno funkcijo L glede na θ, če obstaja en sam parameter. Če obstaja več parametrov, izračunamo delne derivate L glede na vsak od theta parametrov.
- Če želite nadaljevati postopek maksimiranja, določite izpeljanko L (ali delne izpeljane) enako nič in rešite za theta.
- Nato lahko uporabimo druge tehnike (na primer drugi preizkus derivatov), da preverimo, ali smo našli največ za našo verjetnostno funkcijo.
Primer
Recimo, da imamo paket s semeni, od katerih ima vsako stalno verjetnost str uspešnosti kalitve. Sadimo n od teh in preštejte število tistih, ki kalijo. Predpostavimo, da vsako seme požene neodvisno od ostalih. Kako določimo največjo oceno verjetnosti parametra str?
Začnemo z opažanjem, da je vsako seme modelirano z Bernoullijevo distribucijo z uspehom str. Dovolimo X bodisi 0 ali 1, funkcija verjetnostne mase za posamezno seme pa je f(x; str ) = strx(1 - str)1 - x.
Naš vzorec je sestavljen iz n drugačen Xjaz, vsak od njih ima Bernoullijevo distribucijo. Semena, ki kalijo, imajo Xjaz = 1 in semena, ki ne uspejo, imajo Xjaz = 0.
Verjetnost funkcijo poda:
L ( str ) = Π strxjaz(1 - str)1 - xjaz
Vidimo, da je možno prepisati verjetnostno funkcijo z uporabo zakonov eksponentov.
L ( str ) = strΣ xjaz(1 - str)n - Σ xjaz
Nato razlikujemo to funkcijo glede na str. Predvidevamo, da so vrednosti za vse Xjaz so znani in so zato stalni. Za razlikovanje od verjetnosti funkcijo moramo uporabiti pravilo izdelka skupaj s pravilom moči:
L '( str ) = Σ xjazstr-1 + Σ xjaz (1 - str)n - Σ xjaz- (n - Σ xjaz ) strΣ xjaz(1 - str)n-1 - Σ xjaz
Ponovno napišemo nekatere negativne eksponente in imamo:
L '( str ) = (1/str) Σ xjazstrΣ xjaz (1 - str)n - Σ xjaz- 1/(1 - str) (n - Σ xjaz ) strΣ xjaz(1 - str)n - Σ xjaz
= [(1/str) Σ xjaz - 1/(1 - str) (n - Σ xjaz)]jazstrΣ xjaz (1 - str)n - Σ xjaz
Zdaj, da nadaljujemo proces maksimiranja, smo to izpeljanko postavili na nič in jo rešili p:
0 = [(1/str) Σ xjaz - 1/(1 - str) (n - Σ xjaz)]jazstrΣ xjaz (1 - str)n - Σ xjaz
Od str in (1- str) so nič, to imamo
0 = (1/str) Σ xjaz - 1/(1 - str) (n - Σ xjaz).
Pomnožitev obeh strani enačbe z str(1- str) nam daje:
0 = (1 - str) Σ xjaz - str (n - Σ xjaz).
Desno stran razširimo in vidimo:
0 = Σ xjaz - str Σ xjaz - strn + pΣ xjaz = Σ xjaz - strn.
Tako je Σ xjaz = strn in (1 / n) Σ xjaz = p. To pomeni, da je največja ocena verjetnosti za str je povprečna vrednost vzorca. Natančneje gre za vzorčni delež semen, ki so kalile. To je popolnoma v skladu s tem, kar bi nam povedala intuicija. Da bi določili delež semen, ki bodo vzklila, najprej razmislite o vzorcu iz populacije, ki vas zanima.
Spremembe korakov
Na zgornjem seznamu korakov je nekaj sprememb. Na primer, kot smo videli zgoraj, je po navadi vredno porabiti nekaj časa z uporabo neke algebre, da bi poenostavili izražanje verjetnostne funkcije. Razlog za to je, da je diferenciacija lažja za izvedbo.
Druga sprememba zgornjega seznama korakov je upoštevanje naravnih logaritmov. Maksimalna funkcija L se bo pojavila v isti točki kot za naravni logaritem L. Tako je maksimiranje ln L enakovredno maksimiranju funkcije L.
Velikokrat bo zaradi prisotnosti eksponentnih funkcij v L naravni logaritem L močno poenostavil del našega dela.
Primer
Vidimo, kako uporabiti naravni logaritem z revidiranjem primera od zgoraj. Začnemo s funkcijo verjetnosti:
L ( str ) = strΣ xjaz(1 - str)n - Σ xjaz .
Nato uporabimo naše zakonitosti logaritma in vidimo, da:
R ( str ) = ln L ( str ) = Σ xjaz ln p + (n - Σ xjaz) ln (1 - str).
Že vidimo, da je derivat veliko lažje izračunati:
R '( str ) = (1/str) Σ xjaz - 1/(1 - str)(n - Σ xjaz) .
Zdaj, kot prej, smo to izpeljanko postavili na nič in obe strani pomnožili s str (1 - str):
0 = (1- str ) Σ xjaz - str(n - Σ xjaz) .
Rešimo za str in najti enak rezultat kot prej.
Uporaba naravnega logaritma L (p) je koristna na drug način. Veliko lažje je izračunati drugo izpeljanko R (p), da preverimo, ali resnično imamo največ v točki (1 / n) Σ xjaz = p.
Primer
Za drug primer, predpostavimo, da imamo naključni vzorec X1, X2,... Xn iz populacije, ki jo modeliramo z eksponentno porazdelitvijo. Funkcija gostote verjetnosti za eno naključno spremenljivko je oblika f( x ) = θ-1e -x/θ
Verjetnostna funkcija je podana s funkcijo skupne gostote verjetnosti. To je izdelek več teh funkcij gostote:
L (θ) = Π θ-1e -xjaz/θ = θ-ne -Σxjaz/θ
Še enkrat je koristno razmisliti o naravnem logaritmu verjetnostne funkcije. Če bi to razlikovali, bo potrebno manj dela kot razlikovanje verjetnostne funkcije:
R (θ) = ln L (θ) = ln [θ-ne -Σxjaz/θ]
Uporabljamo svoje zakone logaritmov in pridobimo:
R (θ) = ln L (θ) = - n ln θ + -Σxjaz/θ
Razlikujemo glede na θ in imamo:
R '(θ) = - n / θ + Σxjaz/θ2
Ta derivat nastavimo na nič in vidimo, da:
0 = - n / θ + Σxjaz/θ2.
Pomnožite obe strani s θ2 rezultat pa je:
0 = - n θ + Σxjaz.
Zdaj uporabite algebra za rešitev θ:
θ = (1 / n) Σxjaz.
Iz tega vidimo, da je vzorec pomeni tisto, kar maksimizira funkcijo verjetnosti. Parameter θ, ki ustreza našemu modelu, bi moral biti preprosto povprečje vseh naših opazovanj.
Povezave
Obstajajo druge vrste ocenjevalcev. Ena nadomestna vrsta ocene se imenuje an nepristranski ocenjevalec. Za to vrsto moramo izračunati pričakovano vrednost naše statistike in ugotoviti, ali ustreza ustreznemu parametru.