[STRUCE1] Gradivo

-Ivan-

Dragi prijatelj strojnog učenja
Ako se dobro sjećam, Šnajder je rješavao ovaj zadatak i rekao da se ne slaže s rješenjem, točnije s ovim ha2>ha3
Kao da to ne možemo zapravo znati je li taj dio vrijedi

bodilyfluids

Ivančica mene taj dio isto buni, ali bi mi imalo smisla da je obrnuto, onda bi se grupe mogle fino poravnati

Reznox

Moze neko pojasnit?

bodilyfluids

Reznox znaci da ispobavas svaku kombinaciju C i gamma. resetka as in kartezijev produkt

Rene

Reznox
10 puta vrtis vanjsku petlju, ali u 9 slucajeva ce svaki primjer biti u train setu a jednom u test setu
Svaki put u vanjskoj petlji prolazis sve hiperparametre dakle 31 (linearna jezgra) + 31×31 (rbf)
U unutarnjoj petlji 4 od 5 puta ce biti u train setu, a jednom u validation
Na kraju vanjske petlje jos istreniras s najboljim parametrima i testiras
9 \cdot ((31 + 31^2) \cdot 4 + 1) = 35721
Ako nisi baš skužio pogledaj pseudokod ove ugniježđene provjere pa si probaj vizualizirat

branimir1999

Postoji neka preporuka kako uciti za rok? Ishodi ucenja, skripta, stari zadaci i videopredavanja?

Bananaking

Rješavam ZI pa bi stavio rješenja za sve osim gradivo koje nisam prošao (Bayesov klasifikator, ako netko je može staviti svoja rješenja), došao sam do ovog zadatka. Jel bi ga mogao netko raspisati? Ne znam jel dobro raspisujem nezavisnosti odnosno kako se dekomponiraju kad imam skupove npr {v, w}. Ima mi smisla da se to rastavi na dvije, v / y | x i w / y | x ali mi malo mršavo izgleda pool nezavisnosti s kojima bi pojednostavio zajedničku distribuciju.

tomekbeli420

Bananaking Ja sam to išao rješavati tako da sam direktno pokušao konstruirati Bayesovu mrežu tako da sam obrnutim postupkom primjenjivao uređajno Markovljevo svojstvo (UMS) nad svakom varijablom:
x_k \perp \operatorname{pred}(x_k) \setminus \operatorname{pa}(x_k) \mid \operatorname{pa}(x_k)

Topološki uređaj je zadan u zadatku, stoga nam je \operatorname{pred}(x_k) poznat za sve varijable.
Npr. \operatorname{pred}(y) = \{v, w, x \}.
Kako?
Pa prvo kreneš od Bayesove mreže koja nema nikakvih uvjetnih nezavisnosti, dakle to je usmjereni aciklički graf sa svim mogućim bridovima, pritom imajući na umu topološki uređaj.
I onda uzmeš ove uvjetne nezavisnosti koje imaš i gledaš onu varijablu koja se pojavljuje sama, odnosno ne u parovima varijabli. Npr. uzmeš ovu prvu uvjetnu nezavisnost \{v, w\} \perp y \mid x
I vidiš da se y pojavljuje sam, i onda što napraviš jest probaš skužiti iz uređajnog Markovljevog svojstva za varijablu y koji su roditelji od y odnosno kakav je \operatorname{pa} (y). Pa čini se da je samo x, što ima smisla jer \operatorname{pred} (y) \setminus \operatorname{pa} (y) ispadne stvarno \{v, w\}, što odgovara onda ovoj uvjetnoj nezavisnosti koja je zadana. Dakle onda pobrišeš bridove vy i wy.

Na istu foru se za drugu uvjetnu nezavisnost zaključi da je \operatorname{pa}(z) = \{w, y\} pa onda samo te bridove koje vode do z sačuvaš (odnosno pobrišeš bridove xz i vz ).

I onda iz dobivene mreže lako iščitaš faktorizaciju:
p (v, w, x, y, z) = p(v) p(w \mid v) p(x \mid v, w) p (y \mid x) p(z \mid w, y)

Distribucija p(v) ima 3-1=2 parametra
Distribucija p(w \mid v) ima 3*(2-1)=3 parametra
Distribucija p(x \mid v, w) ima 3*2*(3-1)=12 parametara
Distribucija p (y \mid x) ima 3*(2-1)=3 parametra
Distribucija p(z \mid w, y) ima 2*2*(2-1)=4 parametra

Sve skupa 24 parametara

Bananaking

Zašto su B) C) i D) krivi?

sheriffHorsey

Bananaking
b) newtonov postupak moze koristit l2 regularizaciju (skripta, log reg 2, str. 5)

c) ovaj odgovor je otrovan jer ti u pitanju kaze “konkretno kod logisticke regresije” a pise da gradijentni spust moze zaglaviti u lokalnom optimumu sto nije istina jer je funkcija pogreske za logisticku regresiju konveksna i onda te gradijentni spust mora dovesti do globalnog minimuma uz razumnu stopu ucenja

d) u drugom dijelu odgovora kaze “kod l2-regularizirane regresije ne konvergira ako primjeri nisu linearno odvojivi” sto nije istina, sjeti se da logisticka regresije ne konvergira za linearno odvojive primjere ako NE koristis regularizaciju dok u slucaju regularizirane verzije ce povecanje tezina u odredenoj iteraciji povecat vrijednost funkcije pogreske umjesto smanjiti i time doc do konvergencije

micho

sheriffHorsey u b nije krivo što newtonov postupak isto može koristiti l2, nego što će on isto divergirati za preveliku stopu učenja

Heklijo

Ima koji dokument sa skupljenim zadacima (i postupak) sa MI i ZI?

Asdf

moze netko objasnit postupak rješavanja ovog zadatka?
Izracunam gubitke ali ne dobijem odg pod A

sheriffHorsey

M̵̧̩͑̀͝î̶͍̉ć̴̝̾́̀o̶̺̟̣͂̽ nisam ni rekao da je krivo sto MOZE koristit l2 regularizaciju jer odgovor kaze “za razliku od newtonovog postupka, gradijentni spust moze se koristiti za l2 regulariziranu logisticku regresiju” sto bi znacilo da se newtonov postupak NE MOZE koristiti za l2 regulariziranu logisticku regresiju sto je odmah krivo pa dalje ni ne trebas citat, a ovaj dio s divergiranjem u odgovoru se odnosi na gradijentni spust

micho

sheriffHorsey Da ali piše ti “dok Newtonov postupak nema taj problem”, koji se vjv odnosi na divergenciju, pošto je to konkretan problem

Bananaking

Koja je razlika između 3-NN i težinskog k-NN? U zadatku izračunam sličnost između riječi i za 3-NN uzmem 3 najveće sličnosti, pogledam njihove oznake (recimo 1, 1, 0) i zaključim da je oznaka primjera 1. Kako za težinski?

sheriffHorsey

Bananaking

drzis se ove formule kad racunas tezinski, zapravo to vec i radis kod 3-NN ali su uvijek vrijednosti jezgrene funkcije iste pa ti ne utjece na argmax

Bananaking

Kako se ovdje dobije D) 79? Po meni od 7 značajki jednu odbacujemo (jer je x7 = x5 - x6) pa ih imam 6. Znači 6 nekvadriranih, 6 kvadriranih, 6C2 parova puta 2² kombinacije kvadrata, 6C3 trojki puta 2³ kombinacije kvadrata = 232

Jaster111

Bananaking
Ja sam tu stavio da treba 5 značajki, jer x4 ti ne treba jer je kolinearan sa x3, i još izbacimo bilo šta od x5 ili x6 ili x7. Dakle 5 značajki imamo. Stoga imamo 5 nekvadriranih, 5 kvadriranih, 40 interakcijskih parova (10C2 = 45, ali oduzimamo sve one parove koji su sami sa sobom na kvadrat, dakle x1 i x1² npr, pa je takvih 5, dakle imamo 40), i još 30 interakcijskih trojki (svaku od nekvadriranih značajki moramo spojiti sa parom kvadriranih značajki, ali moramo paziti da ne spojimo x1 i x1² i x3² npr… kvadriranih parova ima 10, ali za x1 moramo oduzeti 4 koja imaju x1 u sebi… to nas dovodi do 6 mogućih parova, dakle 6 parova kvadriranih * 5 nekvadriranih značajki = 30)
To sve skupa daje 80 pa sam nekako zaključio da je 79 najbliži broj pa je točno lol, ne znam jel to ima logike.

sheriffHorsey

Bananaking ovo mi izgleda kao zadatak s meduispita koji je bio ponisten pa vjerojatno tocan odgovor nije ni bio ponuden

« Prethodna stranica Sljedeća stranica »