Nešto je pošlo po zlu prilikom učitavanja potpune inačice ove stranice. Pokušajte nasilno osvježiti ovu stranicu kako biste otklonili grešku.

[STRUCE1] Gradivo

viliml

tomekbeli420 tomekbeli420 Ovo što računaš nije udaljenost primjera od hiperravnine, nego udaljenost između projekcija dva primjera na pravac okomit na hiperravninu.
Ono što se treba maksimizirati je minimalna udaljenost od bilo kojeg primjera do hiperravnine, dakle u našem slučaju pravac mora biti simetrala naša dva primjera.
To nam odmah daje w_0=0, w_1+w_2=0, i onda dalje lako.

EDIT: ok, shvatio sam što ti je bila ideja. Ti si shvatio da se maksimizira suma udaljenosti primjera od hiperravnine. Ali zadatak nije tako zadan. Definicija udaljenosti između dva skupa točaka je minimum udaljenosti između bilo koje točke u prvom i bilo koje točke u drugom skupu.
Bespotrebno si si zakomplicirao život, ali ipak si dobio isto rješenje pa bravo.


tomekbeli420

viliml aha vidi stvarno, a bilo bi super kad bi u zadatku eksplicitno rekli da je minimum


boogie_woogie

Zna netko ovaj?

Pretpostavljam da se a i b mogu eliminirati jer primjeri nisu linearno odvojivi, ali zašto je baš d, a ne c?


viliml

nika_1999 To se meni čini kao greška u zadatku, osim ako je neka kvaka s time da empirijska pogreška konvergira na neku veliku vrijednost dok još uvijek krivo klasificira.
Ovaj mi se isto čini kao greška. Topologija mreže je 10×4×3, Parametara je 40+12=52.


viliml

nika_1999 viliml
Može drugo mišljenje?
Da netko ili potvrditi da su zadatci krivo zadani ili objasni službeno rješenje?
Uskoro će rok za predaju.


[obrisani korisnik]


može li netko dodatno pojasniti ovaj dio? ni nakon njihovog objašnjenja mi nije jasno zašto se ovo događa samo za linearno odvojive probleme


Rene

[obrisani korisnik] Ako su primjeri linearno odvojivi, onda će se sigmoida stezati i praktički težiti prema obliku step funkcije jer možeš samo biti jako blizu nule za jednu klasu, a jako blizu jedinice za drugu klasu i strmi prelazak između njih (slika lijevo).
Ako nisu linearno odvojivi onda ne taj strmi prijelaz nije dobar jer će greška biti veća, pa sigmoida postaje “blažeg” prijelaza (slika desno)

Možda se nisam najbolje izrazio, ali mislim da je o tome Šnajder govorio na predavanju Logistička regresija 2 pred kraj.


bodilyfluids

[obrisani korisnik]

Evo wall of text struje svijesti, nadam se da pomogne.

Prije svega, važno je shvatiti što se događa sa sigmoidom ako množiš njen ulaz sa faktorom alpha. Što više raste faktor alpha, to sigmoida postaje strmija ( 6. cjeline, str 2).

Sljedeće, potrebno je razumjeti da kada koristiš sigmoidu u logističkoj regresiji
\sigma(w^Tx)
wT je ista stvar kao faktor alpha. Kako je on veći, to je sigmoida strmija.

Dalje je potrebno razumjeti gubitak unakrsne entropije. On kažnjava i ispravno i neispravno klasificirane primjere i raste proporcionalno s razlikom izlaza modela i stvarne oznake primjera, tj. |y - h \left(\mathbf{x}\right)|
(vidi cjelinu 6, str 7.)

Ajmo sada pogledati što se događa s modelom koji već ispravno klasificira sve primjere. Dakle, primjeri su linearno odvojivi. Zašto on u daljnjoj optimizaciji nastavlja za neki faktor povećavati težine? Zato jer time ne mjenja granicu klasifikacije, a sigmoida postaje strmija. A kad sigmoida postane strmija, izlaz modela za sve pozitivne primjere pomakne se bliže 1, a za negativne bliže 0. Time se smanjuje gubitak, odnosno pogreška, a to je upravo ono što algoritam i želi.

E sad, ako primjeri nisu linearno odvojivi, logička regresija neke primjere neće moći ispravno klasificirati. I sad zamisli da kreneš povećavati težine isto kao i gore. Opet bi sigmoida postala strma i davala vrijednosti blizu ili 0 ili 1. I sad recimo da postoji pozitivno označen primjer na pogrešnoj strani klasifikacijske granice. Za njega bi model dao h \left(\mathbf{x}\right) \approx 0 , što je potpuno krivo klasificirano i gubitak je velik, odnosno gubitak netočno klasificiranih primjera raste što je sigmoida strmija. U drugu ruku, pogreška za sve ispravno klasificirane primjere bi padala. Dakle kako mjenjaš strminu sigmoide, ispravno klasificiranim primjerima gubitak se smanjuje, a neispravnim se povećava.

Poanta cijele priče je da kod linearno odvojih primjera funkciju pogreške uvijek možeš natjerati da teži u nula, a to postižeš jako strmom sigmoidom. Kod primjera koji nisu linearno odvojivi to ne možeš jer minimum funkcije pogreške nije 0 i težine nikad neće rasti nekontrolirano.


bodilyfluids

[obrisani korisnik] Zapravo, mislim da će ti biti najjasnije ako probaš debuggat algoritam za najjednostavniji mogući linearno odvojiv i neodvojiv primjer, pa pogledaš kako se stvari ažuriraju.


bodilyfluids

BillIK Tako nekako. Model sa strmom sigmoidom teži k tome da daje vrijednosti jako blizu ili 0 ili 1, pa je teško interetirati točnost klasifikacije. Dodatno, mozda ti ovo pomogne,
Dragi prijatelj strojnog učenja


Rene

viliml Ne bih rekao da je greška.
A i B neće konvergirati jer primjeri nisu linearno odvojivi a koristi se perceptron.
C ne konvergira jer logistička regresija (neregularizirana) ne konvergira za linearno odvojive primjere. Detaljnije objašnjenje:
https://stats.stackexchange.com/questions/224863/understanding-complete-separation-for-logistic-regression
D konvergira jer su primjeri linearno neodvovjivi.

Ovaj drugi zadatak ne dobijam ni tvoje ni njihovo rješenje, pa nisam siguran


Rene

Rene Evo, mislim da sam uspio i taj.
Iz modela vidimo da postoje 4 bazne funkcije \phi_j s tim da je \phi_0(\vec{x})=1 pa ona nema parametara.
Ostale 3 su definirane kao \phi_j(\vec{x})=w_{j0} + w_{j1} x_1 + ... + w_{j10}x_{10} dakle svaka ima 11 parametara.
Svaka od 3 klase još ima svoj vektor \vec{w_k} = (w_{k0}, w_{k1}, w_{k2}, w_{k3}) .
Ukupno je to onda 3 * 11 + 3 * 4 = 45 parametara.


viliml

Rene C ne konvergira jer logistička regresija (neregularizirana) ne konvergira za linearno odvojive primjere.

Težine ne konvergiraju (teže beskonačnosti), ali empirijska pogreška i dalje konvergira prema nuli.
Ali istina da D također konvergira.

Rene
U zadatku piše da su bazne funkcije definirane kao “skalarni produkt vektora značajki i vektora primjera”. Ako ignoriramo to što su vjerojatno htjeli reći “vektora značajki i vektora težina”, to nalaže da imaju 10 parametara. Nije pisalo “afina funkcija”. Ali ne bi me čudilo da je to isto njihova greška.
Također nigdje nije rečeno da je nulta bazna funkcija konstanta, ali ok, recimo da je to zdravi razum kojeg ja nemam.


[obrisani korisnik]

Rene možda sam ja omašio ceo fudbal, al zašto primjeri nisu linearno odvojivi? jel ih ne bi mogla odvojiti ploha y=0 npr.?


bodNaUvidima

Rene Gdje piše da se uzima da je nulta bazna funkcija konstantno preslikavanje značajki u 1? Ne mogu naći to u literaturi na intranetu niti se sjećam da je to naglašeno u videopredavanju.


micho

viliml E ali uzmi u obzir da će ti se tih 10 značajki potencijalno proširiti dummy značajkom, takva je i praksa na predmetu. Trebalo bi urediti zadatak da ne piše ovo “kao i na predavanju”, nego da piše konkretno o čemu se radi.


BillIK

Kako odabiremo najbolju stopu učenja? Ima čitava ona priča u skripti, ali postoji li neki kraći odgovor bez toliko teoretiziranja tipa. ona za koju će pogreška bit min/max?


BillIK

BillIK anyone?


micho

BillIK ali postoji li neki kraći odgovor bez toliko teoretiziranja tipa. ona za koju će pogreška bit min/max?

Ne

To se, uostalom, rješava i drukčijim algoritmima, a ne samo drukčijom vrijednosti i otvoreni je (potencijalno nerješivi) problem.


Jale

Jel imao netko problema s Pycharmom i prikazivanjem grafova? Uopce mi se ne prikaze graf u Pycharmu nego se otvori novi smrznuti prozor (Not responding). Kad isti kod pokrecem u browseru, najnormalnije se prikazuje. Nisam uspio nista korisno naci na internetu


jazzMassive

čakijale zakomentiraj onaj red u prvoj celiji inline pylab, al nemoj zaboraviti vratiti kada pokazujes asistentu


rolotex


Zna netko ovaj


viliml

brr
-\log(1-\sigma(0.15+\mathbf{w}^\intercal\mathbf{x}))=0.274 \\ -\log\sigma(0.15+\mathbf{w}^\intercal(2\mathbf{x})) =\space?

1-\sigma(0.15+\mathbf{w}^\intercal\mathbf{x})=e^{-0.274} \\ \sigma(0.15+\mathbf{w}^\intercal\mathbf{x})=1-e^{-0.274} \\ \mathbf{w}^\intercal\mathbf{x}=\log(-\frac{1-e^{-0.274}}{1-e^{-0.274}-1})-0.15 \\ =\log(\frac{1-e^{-0.274}}{e^{-0.274}})-0.15 \\ =\log(e^{0.274}-1)-0.15

-\log\sigma(0.15+\mathbf{w}^\intercal(2\mathbf{x})) = -\log\sigma(0.15+2\mathbf{w}^\intercal\mathbf{x}) \\ =-\log\sigma(0.15+2(\log(e^{0.274}-1)-0.15)) \\ =-\log\sigma(0.15+2(\log(e^{0.274}-1)-0.15)) \\ =-\log\sigma(2\log(e^{0.274}-1)-0.15) \\ \approx 2.54


Rene

bodNaUvidima nije nužno ali na ptedavanju je snajder rekao da je uobicajeno
Bar ja tako imam u biljeskama


« Prethodna stranica Sljedeća stranica »