Statistička klasifikacija

U statistici, klasifikacija je problem identifikovanja kojoj od skupa kategorija (podpopulacija) posmatranje (ili zapažanja) pripada. Primeri su dodeljivanje date e-pošte u klasu „neželjena pošta” ili „ne-spam”, i dodeljivanje dijagnoze datom pacijentu na osnovu uočenih karakteristika pacijenta (pol, krvni pritisak, prisustvo ili odsustvo određenih simptoma, itd).

Često se pojedinačna zapažanja analiziraju u skup kvantitativnih svojstava, poznatih na različite načine kao objašnjavajuće varijable ili karakteristike. Ova svojstva mogu na različite načine biti kategorička (npr. „A“, „B“, „AB“ ili „O“, za krvnu grupu), redna (npr. „velika“, „srednja“ ili „mala“), celobrojna (npr. broj pojavljivanja određene reči u e-poruci) ili realne vrednosti (npr. merenje krvnog pritiska). Drugi klasifikatori rade tako što upoređuju posmatranja sa prethodnim posmatranjima pomoću funkcije sličnosti ili udaljenosti.

Algoritam koji implementira klasifikaciju, posebno u konkretnoj implementaciji, poznat je kao klasifikator. Termin „klasifikator” ponekad se odnosi i na matematičku funkciju, implementiranu klasifikacionim algoritmom, koja mapira ulazne podatke u kategoriju.

Terminologija u različitim oblastima je prilično raznolika. U statistici, gde se klasifikacija često vrši logističkom regresijom ili sličnim postupkom, svojstva zapažanja se nazivaju objašnjavajuće varijable (ili nezavisne varijable, regresori, itd), a kategorije koje treba predvideti poznate su kao ishodi, za koje se smatra da su moguće vrednosti zavisne promenljive. U mašinskom učenju, zapažanja su često poznata kao instance, objašnjavajuće varijable se nazivaju karakteristike (grupisane u vektor karakteristika), a moguće kategorije koje treba predvideti su klase. Druge oblasti mogu koristiti drugačiju terminologiju: npr. u ekologiji zajednice, termin „klasifikacija” se obično odnosi na klastersku analizu.

Odnos prema drugim problemima

Klasifikacija i grupisanje su primeri opštijeg problema prepoznavanja obrazaca, a to je dodeljivanje neke vrste izlazne vrednosti datoj ulaznoj vrednosti. Drugi primeri su regresija, koja svakom ulazu dodeljuje izlaz realne vrednosti; sekvenciono označavanje, koje dodeljuje klasu svakom članu niza vrednosti (na primer, označavanje dela govora, koje dodeljuje deo govora svakoj reči u ulaznoj rečenici); raščlanjivanje, koje dodeljuje stablo raščlanjivanja ulaznoj rečenici, opisujući sintaksičku strukturu rečenice; itd.

Uobičajena podklasa klasifikacije je probabilistička klasifikacija. Algoritmi ove prirode koriste statističko zaključivanje da bi pronašli najbolju klasu za datu instancu. Za razliku od drugih algoritama, koji jednostavno daju „najbolju” klasu, probabilistički algoritmi daju verovatnoću da je instanca član svake od mogućih klasa. Najbolja klasa se obično bira kao ona sa najvećom verovatnoćom. Međutim, takav algoritam ima brojne prednosti u odnosu na neprobabilističke klasifikatore:

On može da proizvede vrednost poverenja koja je povezana sa njegovim izborom (uopšteno govoreći, klasifikator koji to može da uradi je poznat kao klasifikator sa ponderisanim poverenjem).
Shodno tome, može da se uzdrži kada je njegovo samopouzdanje u izbor bilo kog određenog rezultata prenisko.
Zbog verovatnoća koje se generišu, probabilistički klasifikatori mogu biti efikasnije ugrađeni u veće zadatke mašinskog učenja, na način koji delimično ili potpuno izbegava problem propagacije greške.

Frekventističke procedure

Rani rad na statističkoj klasifikaciji preduzeo je Fišer,^[1]^[2] u kontekstu problema sa dve grupe, što je dovelo do Fišerove linearne diskriminantne funkcije kao pravila za dodeljivanje grupe novom posmatranju.^[3] Ovaj rani rad pretpostavljao je da vrednosti podataka unutar svake od dve grupe imaju multivarijantnu normalnu distribuciju. Proširenje ovog istog konteksta na više od dve grupe je takođe razmatrano uz nametnuto ograničenje da pravilo klasifikacije treba da bude linearno.^[3]^[4] Kasniji rad za multivarijantnu normalnu distribuciju omogućio je da klasifikator bude nelinearan:^[5] može se izvesti nekoliko pravila klasifikacije na osnovu različitih prilagođavanja Mahalanobisove udaljenosti, pri čemu je novo posmatranje dodeljeno grupi čiji centar ima najnižu prilagođenu udaljenost od opservacije.

Bajesove procedure

Za razliku od frekventističkih procedura, Bajesovske klasifikacijske procedure obezbeđuju prirodan način uzimanja u obzir svih dostupnih informacija o relativnim veličinama različitih grupa unutar ukupne populacije.^[6] Bajesove procedure imaju tendenciju da budu računski skupe i, u danima pre nego što su razvijena izračunavanja Markovljevog lanca Monte Karlo, osmišljene su aproksimacije za Bajesova pravila grupisanja.^[7]

Neke Bajesove procedure uključuju izračunavanje verovatnoće članstva u grupi: one daju informativniji rezultat od jednostavnog pripisivanja jedne oznake grupe svakom novom zapažanju.

Binarna i višeklasna klasifikacija

Klasifikacija se može posmatrati kao dva odvojena problema – binarna klasifikacija i višeklasna klasifikacija. U binarnoj klasifikaciji, bolje razumljivom zadatku, uključene su samo dve klase, dok multiklasna klasifikacija uključuje dodeljivanje objekta jednoj od nekoliko klasa.^[8] Pošto su mnoge metode klasifikacije razvijene posebno za binarnu klasifikaciju, višeklasna klasifikacija često zahteva kombinovanu upotrebu više binarnih klasifikatora.

Vektori karakteristika

Većina algoritama opisuje pojedinačnu instancu čija kategorija treba da se predvidi korišćenjem vektora karakteristika pojedinačnih, merljivih svojstava instance. Svako svojstvo se naziva obeležje, takođe poznato u statistici kao objašnjavajuća varijabla (ili nezavisna varijabla, iako karakteristike mogu ili ne moraju biti statistički nezavisne). Funkcije mogu biti različito binarne (npr. „uključeno“ ili „isključeno“); kategoričke (npr. „A”, „B”, „AB” ili „O”, za krvnu grupu); redne (npr. „veliki”, „srednji” ili „mali”); sa celobrojnim vrednostima (npr. broj pojavljivanja određene reči u e-poruci); ili realnim vrednostima (npr. merenje krvnog pritiska). Ako je instanca slika, vrednosti karakteristika mogu odgovarati pikselima slike; ako je instanca deo teksta, vrednosti obeležja mogu biti učestalosti pojavljivanja različitih reči. Neki algoritmi funkcionišu samo u smislu diskretnih podataka i zahtevaju da podaci sa realnom ili celobrojnom vrednošću budu diskretizovani u grupe (npr. manje od 5, između 5 i 10 ili veće od 10).

Reference

^ Fisher, R. A. (1936). „The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics. 7 (2): 179—188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227 .
^ Fisher, R. A. (1938). „The Statistical Utilization of Multiple Measurements”. Annals of Eugenics. 8 (4): 376—386. doi:10.1111/j.1469-1809.1938.tb02189.x. hdl:2440/15232 .
^ ^а ^б Gnanadesikan, R. (1977) Methods for Statistical Data Analysis of Multivariate Observations, Wiley. ISBN 0-471-30845-5 (p. 83–86)
^ Rao, C.R. (1952) Advanced Statistical Methods in Multivariate Analysis, Wiley. (Section 9c)
^ Anderson, T.W. (1958) An Introduction to Multivariate Statistical Analysis, Wiley.
^ Binder, D. A. (1978). „Bayesian cluster analysis”. Biometrika. 65: 31—38. doi:10.1093/biomet/65.1.31.
^ Binder, David A. (1981). „Approximations to Bayesian clustering rules”. Biometrika. 68: 275—285. doi:10.1093/biomet/68.1.275.
^ Har-Peled, S., Roth, D., Zimak, D. (2003) "Constraint Classification for Multiclass Classification and Ranking." In: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference, MIT Press. ISBN 0-262-02550-7

Spoljašnje veze

[1] Fisher, R. A. (1936). „The Use of Multiple Measurements in Taxonomic Problems”. Annals of Eugenics. 7 (2): 179—188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227 .

[2] Fisher, R. A. (1938). „The Statistical Utilization of Multiple Measurements”. Annals of Eugenics. 8 (4): 376—386. doi:10.1111/j.1469-1809.1938.tb02189.x. hdl:2440/15232 .

[G1977-3] а ^б Gnanadesikan, R. (1977) Methods for Statistical Data Analysis of Multivariate Observations, Wiley. ISBN 0-471-30845-5 (p. 83–86)

[4] Rao, C.R. (1952) Advanced Statistical Methods in Multivariate Analysis, Wiley. (Section 9c)

[5] Anderson, T.W. (1958) An Introduction to Multivariate Statistical Analysis, Wiley.

[6] Binder, D. A. (1978). „Bayesian cluster analysis”. Biometrika. 65: 31—38. doi:10.1093/biomet/65.1.31.

[7] Binder, David A. (1981). „Approximations to Bayesian clustering rules”. Biometrika. 68: 275—285. doi:10.1093/biomet/68.1.275.

[8] Har-Peled, S., Roth, D., Zimak, D. (2003) "Constraint Classification for Multiclass Classification and Ranking." In: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference, MIT Press. ISBN 0-262-02550-7

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]