[STRUCE1] Gradivo
koBASA
johndoe12
Zna li netko tocne odgovore na ova pitanja i objasnjenje?
RogerRoger
Za prvo pitanje, svaka značajka ti je jedan klasifikator. OVO ima K povrh 2 klasifikatora, OVR ima K, gdje je K broj klasa. To znači da u ovom primjeru OVO ima 10 značajki, a OVR 5. Međutim, linearni modeli imaju problem kad su klase neuravnotežene, tj. kad jedna klasa ima puno više primjera od druge, i često ga rješavaju tako da klasificiraju sve ispitne primjere u klasu s više primjera za učenje jer tako minimiziraju empirijsku pogrešku (na štetu manje klase). Za 5 klasa i OVR, omjer primjera za svaki klasifikator je 1:4 i rezultira pogrešnom klasifikacijom primjera “znanosti” (koja je ionako 5x manja od “politike”. Zato je točan odgovor drugi ponuđeni.
Za drugo pitanje pogledaj onaj graf složenosti modela naspram empirijske pogreške učenja i ispitivanja (iz skriptice Osnovni koncepti). Pogreška učenja asimptotski teži nuli, ali ispitna pogreška pati od prevelike složenosti. Regularizacija smanjuje složenost modela ovisno o magnitudi parametara w, što kao rezultat ima bolju generalizaciju, ali lošiju prilagođenost primjerima za učenje. Za regularizirani model pogreška učenja se smanjuje do određene točke, ali zatim stagnira jer joj regularizacija ne da da teži nuli. Zato je točan odgovor drugi ponuđeni.
Newtonov postupak koristi Hesseovu matricu za čiji je izračun potrebna cijela matrica preslikavanja i zato je neiskoristiv za online učenje. Mora imati sve primjere za učenje odjednom i ne može primati jedan po jedan primjer i podešavati težine, što je moguće stohastičkim gradijentnim spustom. Newtonov je postupak doduše optimizacija drugog reda i uzima u obzir drugu derivaciju funkcije, tj. zakrivljenost plohe čime sprječava krivudanje i zato može brže konvergirati. Opet je točan odgovor drugi ponuđeni.
cotfuse
saitama Suma koja se direktno vidi u zadatku ide od 0 do 3, a s obzirom da imas bias w0, ostanu ti 3 weighta, sto povlaci da je sirina skrivenog sloja 3
Stark
hackerman Možeš objasniti kako znamo da je w2 = 0, tj druga težina, ako je prvi član u vektoru alfa 0, a ne drugi?
MJ3
kako izgleda ulaz x nakon preslikavanja polinomom 2.stupnja?
[obrisani korisnik]
MJ3 1 + x_1 + x_2 + x_1x_2 + x_1^2 + x_2^2
https://fer.studosi.net/d/1348-struce-pitanja-i-odgovori/73
johndoe12
gdje se moze naci objasnjene o induckijskoj pristranosti, u skripti na webu ne vidim..
InCogNiTo124
stateboli
InCogNiTo124 Treci zadatak, 23 je rješenje promijenili su zadatak
Yeltneb
Stark
Nije nitko odgovorio pa ponavljam, jel zna netko ovo objasniti?
cotfuse
Yeltneb Stark
ako skup podataka nije linearno odvojiv to znaci da kakav god pravac (pravac odluke modela perceptrona) provuces kroz te podatke, barem jedan primjer ce biti s krive strane pravca. Ti primjeri s krive strane pravca ce uzrokovati da je gradijent gubtka veci od 0 i zbog toga ce se pravac stalno micati kako bi pokusao uhvatiti te preostale primjere, odnosno model nece konvergirati.
Atem
cotfuse Na temelju čega si zaključio da će gradijent u svakom primjeru biti veći od nule? Zato što svaki par (x,y) ima barem jednu nulu u sebi?
SuperSjajan3
cotfuse
Atem ne znam sto znaci da svaki par x,y ima barem jednu nulu u sebi
Meni je to najlakse onak intuitivno poznavajuci onaj graf prostora funkcije gubtka perceptrona koji mozes naci na dnu stranice 15 skriptice o linearnim diskriminativnim modelima. Tamo mozes vidjeti da je nagib grafa konstantan na segmentima. Svaki taj segment predstavlja prostor parametara gdje model jednak broj primjera netocno klasificira. Gdje vise grijesimo, taj je segment strmiji. Ti svi segmenti gradijentnim spustom vode u jedan segment koji je ravan, gdje je gradijent 0. To je prostor gdje model perceptrona sve primjere dobro klasificira. Sad, kad znamo da prostor nije linearno odvojiv, kako nam se mijenja taj graf? Pa znamo da ne mozemo sve primjere tocno klasificirati pa ce taj graf uvijek imati neki nagib, aka gradijent ce uvijek biti veci od 0. Nas postupak optimizacije ce zapravo stalno plesati oko nekog sjecista dva segmenta.
hi_doggy
Može netko objasnit? Hvala
Ziher
hi_doggy Znaci imamo 2 slucaja: alpha je 0 (promatrani vektor nije potporni) i alpha >0 (promatrani vektor je potporni), sto znaci da izraz u drugoj zagradi mora biti jednak 0 da bi jednakost vrijedila. Taj drugi izraz znaci da se promatrani vektor nalazi na margini (ksi je 0) ili unutar nje (ksi je veci od 0). S obzirom kako ksi ne moze biti < 0, potporni vektori nikad nece izaci izvan margine s prave strane granice.
Sto se tice drugog pitanja, zapises si tu razliku u odnosu na rijec “straja” i onda gledas koji su ti primjeri najblizi (konkretno, 3 clana za koji imas najmanji L) i onda ih prebrojis i napravis glasanje (2 jedinice + 1 nula = klasa 1). Onda, samo sto trebas je uvrstiti to sto si dobio u ovu jezgru i gledas najvece brojeve koje si dobio (jer je slicnost veca) i opet dobijes 1. Znaci h1=h2=1
koBASA
Stark
w2 bi ti bilo -1*0*3 + (-1)*0.01*4 + 1*0.01*4 pa je to nula, nema to veze s tim da je prvi član vektora alfa 0, to ti samo znači da ne gledaš vektor koji nije potporni jer ga 0 poništi.
Stark
Dima Za ovaj primjer gdje je vrijednost -1 (na prvoj slici na kraju) mi ispada w0 = -59.73. Što radim krivo? Ne bi se smjelo dogoditi da w0 ima dvije različite vrijednosti, zar ne?
carrieb
Stark u skripti pise da bi se ovo trebalo napraviti, makar je i meni cudno da je toliko velika razlika ako uzmemo jedan ili drugi primjer… sa srednjom vrijednosti w0 ne dolazi dobro rjesenje na pitanju
Bananaking
Ovo se čini kao relativno jednostavan zadatak ali sam loš i ne kužim baš to preslikavanje pa jel bi mogao netko šerati svoj postupak?
Pretpostavljam da se treba samo računati empirijska greška po formuli iz skripte kao sumu od i do N funkcije max(0, -wT preslikano(xi) yi