[STRUCE1] Gradivo
InCogNiTo124
Mikki vidi graf iznad
Cubi
Bananaking Mucio sam se s ovim neko vrijeme i mislim da sam skuzio, pa da pokusam objasniti.
Znaci prva stvar, izostavio si p(x) na pocetku, a kasnije si trazio tocnu vrijednost od p(y|x) sto ne ide. P(x) se izostavlja pri maksimizaciji i usporedbi koja je vrijednost veća jer onda ta konstanta nema utjecaja.
E sad kako naci p(y). Kad bi sve vjerojatnosi p(y) bile jednake, onda bi desna slika izgledala drugacije. Plavi i crveni graf bi se sjekli na istom mjestu na lijevom i na desnom grafu. Npr. s lijeve slike se vidi da je vjerojatnost za primjer x=-4 veci za plavi graf. Međutim, da bi crvena klasa bila vjerojatnija tu, to mora znaciti da se plavi primjeri generiraju rijeđe, tj. da je p(y=plava) < p(y=crvena). Slicno i za ostale.
Kako naci tocne vrijednosti. Ja sam gledao sjecista na desnom grafu. Vidimo da se plavi i crveni graf sijeku u x=-5, tj. tu su jednako vjerojatni. Na lijevoj slici je vrijednost za x=-5 za plavi oko 0.7, a za crveni 0.1. Da bi bili jednako vjerojatni u x=-5 to znaci da crvena klasa mora biti 7 puta vjerojatnija od plave. I vec tu se otkriva odgovor, jedino moguce je 0.7 za crvenu i 0.1 za plavu. Isto razmisljanje moze se ponoviti za crveni i zeleni graf. Kod x=10 vidimo da je vrijednost za zeleni graf oko 0.17, a za crveni oko 0.5, znaci malo vise od 3 puta manja. Znaci vjerojatnost za crvene primjere mora biti malo vise od 3 puta vjerojatnija od zelenog. 0.7 i 0.2 odgovaraju tome.
Malo je objasnjenje zbrda zdola, al nadam se da ce pomoci. Mogu pokusati objasniti neki detalj ako bude potrebno.
gad_gadski
studoš snajder pojasnio zadatak na predavanju u srijedu ovu zadnju, imas na temsu
Heklijo
Jel se kod odredivanja topoloskog uredaja gleda po razinama? Npr. prvo nodes koji nemaju parent (w,y) pa zatim njihova djeca (z, x) itd…
Jel bi onda TU bio : W, Y, X, Z?
Bananaking
Geralt of Rivia Tako je
Tompa007
zasto je tu D tocno ? a ne C?
bodilyfluids
𝐓𝐇𝐄 𝐒𝐄𝐂𝐑𝐄𝐓 - 𝐂𝐋𝐔𝐁 na predavanju je rješen, ugl imaš rubni slučaj kada je N=2, i tada slijedi mi1 = mi3, dakle ne vrijedi stroga nejednakost
Bananaking
𝐓𝐇𝐄 𝐒𝐄𝐂𝐑𝐄𝐓 - 𝐂𝐋𝐔𝐁 map procjena je ( Nk + Alfak - 1 ) / (Suma-po-k(Nk + Alfak) - K)
N1 = 0, N2 = ½ N, N3 = ½ N
Alfa1 = 2, Alfa2 = 2, Alfa3 = 1
Kad uvrstiš dobiješ
mi(MAP, 1) = 1 / N + 2
mi(MAP, 2) = 0.5 N + 1 / N + 2
mi(MAP, 3) = 0.5N / N + 2
N je broj primjera, Nk je broj nastupanja k-te vrijednosti. I sad u N staviš najmanji mogući N=1 i dobiješ za 1 -> ⅓, za 2 -> ½, za 3 -> ⅙
Pod c) kaže da je mi3 uvijek veći od mi1 (što vidiš gore da nije točno)
Pod d) kaže da je:
- mi1 od 0 do ⅓ (za N = 1 je ⅓, za veći N se smanjuje)
- mi2 između 0.5 i 1 (za N = 1 je 0.5, za veći raste ali ne može biti veći od jedan jer se N u brojniku dijeli sa 2 a u naz ne)
- da je mi2 uvijek veći od mi3 i da su između 0 i 1 ( mi2 ima taj “+1” u brojniku)
Voila.
Tompa007
Dragi prijatelj strojnog učenja ahaaaa, mislis kada je N =1 ? pa onda moze biti da je mi1 = mi2 ili mi1 = mi3 ovisno koja realizacija se dogodila
Bananaking
Može netko raspisati ovaj, čini se jednostavno ali ne znam kako tretirati ovu prvu i zadnju uvjetnu nezavisnost
soplagaitas
sori ako nije čitljivo
tomekbeli420
jel uspio netko? nema šanse da ikako pogodim tih 64
sheriffHorsey
tomekbeli420
znaci za \mathcal{H}_0 imas dio koji se odnosi na numericke znacajke: \frac{2 \cdot 3}{2} + 2\cdot 2 + 2 - 1 = 8
u tom izrazu redom imas parametre za dijeljenu kovarijacijsku matricu (cuvas dijagonalu i jedan trokut), za svaku klasu po jedan vektor sredine \mathbf{\mu}_k i jos K - 1 parametar za apriorne vjerojatnosti
nakon ovoga ide dio za kategoricke znacajke: (3\cdot 2\cdot 2 - 1) \cdot 2 = 22
ovdje moras isprobat sve kombinacije vrijednosti svih znacajki osim jedne koju mozes dobit iz uvjeta da se vjerojatnosti zbrajaju u 1 i to jos pomnozit s brojem klasa
sljedeci je model \mathcal{H}_1:
kod numerickih znacajki se sad mijenja prica jer je sad kovarijacijska matrica dijeljena ali i dijagonalna pa ti vise ne treba trokut, ali ostalo ostaje isto: 2 + 2 \cdot 2 + 2 -1 = 7
kod kategorickih znacajki su sad x_1 i x_4 združene pa se smanjuje broj kombinacija: [(3\cdot 2 - 1) + (2-1)]\cdot 2 = 12
i na kraju \mathcal{H}_2:
opet vrijedi isto za numericke kao i u prethodnom modelu: 2 + 2 \cdot 2 + 2 -1 = 7
kod kategorickih se pak jos vise smanjuje broj parametara: [(3-1) + (2-1) + (2-1) ] \cdot 2 = 8
Na kraju kad se sve sumira: (8+22) + (7+12) + (7+8) = 64 parametra
tomekbeli420
Geralt of Rivia Dakle kod naivnog Bayesovog klasifikatora vrijedi
P \left(\mathbf{x}, y\right) = P \left(x_1, x_2, x_3, x_4, y\right) = P (y) P (x_1 \mid y) P (x_2 \mid y) P (x_3 \mid y) P (x_4 \mid y)
E a sad ove vjerojatnosti P (x_k \mid y) su vjerojatnosti kategoričke (ili Bernoullijeve ako su moguće samo 2 vrijednosti) slučajne varijable X_k, koje se procjenjuju Laplaceovim zaglađivanjem (MAP procjena sa onim alfama 2).
U nazivnik ide
ukupan broj primjera sa oznakom y (kako nas zanima y=1 gledaš ukupan broj primjera koji imaju tu oznaku, dakle ima ih 3)
plus
ukupan broj različitih vrijednosti varijable x_k. Ova dva koja si zaokružio su faktori koji predstavljaju P(x_1 = \text{"Istra"} \mid y=1) i P(x_2 = \text{"ne"} \mid y=1)
Dakle za ovaj prvi faktor x_1 ima moguće 3 vrijednosti (Kvarner Dalmacija Istra) zato još stoji +3 a za ovaj drugi faktor x_2 ima moguće 2 vrijednosti (da ne).
sheriffHorsey
Um…. Jasno mi je da je to točno rješenje ali
Neka mi netko objasni kako, na koji način, ovaj komad o \mathcal{H}_0 ne uvodi pretpostavku o uvjetnoj nezavisnosti????????????????????
Ovim postupkom koji si ti naveo bi se združena vjerojatnost faktorizirala kao
P \left(x_1, x_2, x_3, x_4, x_5, y\right) = P (y) P (x_2 ,x_3 \mid y) P (x_1, x_4, x_5 \mid y)
Dakle ove brojke koje si naveo, 1, 8, 22, su upravo brojevi parametara za procjenu ovih faktora
Što nije potpuna faktorizacija bez nekih uvjetnih nezavisnosti. Konkretno ovdje bi onda, čisto gledajući samo ovu faktorizaciju vrijedilo \{x_2, x_3\} \perp \{x_1, x_4, x_5\} \mid y
I kako je sad to točan odgovor ako kaže da \mathcal{H}_0 ne uvodi nikakve pretpostavke o uvjetnoj nezavisnosti???? Ono što sam ja dobio isprve pa sam bio u čudu je broj parametara samo za \mathcal{H}_0 je prelazio sve ove odgovore.
bodilyfluids
prx_xD jos skrolanja 5 sekundi gore i nasao bi 4. sheriffHorsey
cajaznun
Je li ima netko raspisano rjesenje ovog zadatka (zavrsni prosle godine) sa uzajamnom informacijom? U predavanju asistent samo preleti preko njega, a u onom doc fileu su napisana gotova rjesenja. Takoder postupak rjesavanja i brojevi od asistenta sa predavanja se razlikuje od onih iz doc filea za vjerojatnost x2.
Cubi
cajaznun Znaci polunaivan bayesov klasifikator je slican kao naivan Bayesov klasifikator. Znaci rastavlja P(x_1, x_2, x_3, y) = P(y) P(x_1 \mid y) P(x_2 \mid y) P(x_3 \mid y) ako su sve varijable uvjetno nezavisne. Ako nisu, onda te zdruzi, npr recimo da su x_2 i x_3 uvjetno zavisne onda bi zajednicka vjerojatnost bila: P(x_1, x_2, x_3, y) = P(y) P(x_1 \mid y) P(x_2, x_3 \mid y)
Problem koji se dogadja je da je tesko odrediti koje su varijable uvjetno zavisne i onda postoje razliciti postupci objasnjeni u skripti da sad ne ulazim u detalje. U zadatku kaze da su varijable uvjetno zavisne ako je I(x_i, x_j) > 0.01 tj. uzajamna informacija veca od 0.01. Sad samo treba izracunati I za svaki par i vidjeti koji su parovi zavisni. Njih cemo zdruziti u faktorizaciji P(x_1, x_2, x_3, y) poslije.
I(X, Y) se računa kao \sum{P(X, Y) ln \frac{P(X, Y)}{P(X)P(Y)}} za svaku vrijednost X i Y.
Primjerice:
I(x_1, x_2) = P(x_1=0, x_2=0) ln \frac{P(x_1=0, x_2=0)}{P(x_1=0)P(x_2=0)} +P(x_1=0, x_2=1) ln \frac{P(x_1=0, x_2=1)}{P(x_1=0)P(x_2=1)} +P(x_1=1, x_2=0) ln \frac{P(x_1=1, x_2=0)}{P(x_1=1)P(x_2=0)}+P(x_1=1, x_2=1) ln \frac{P(x_1=1, x_2=1)}{P(x_1=1)P(x_2=1)}
Ne da mi se sad raspisivat dalje detaljno, al iz tablice se mogu odrediti P(x_1, x_2) za svaki par vrijednosti. Npr za (0, 0) samo zbroji kad su x_1, x_2 = 0 za svaki x_3. Slicno i za P(x_1), samo se zbroje sve vrijednosti za svaki x_2 i x_3
Ako je ovo isti zadatak kao u zadacima za vjezbu, dobije se:
I(x_1, x_2)=0.00513164
I(x_1, x_3)=0.03
I(x_2, x_3)=0.00513
iz cega slijeda da su varijable x_1 i x_3 zavisne i faktorizacija je P(x_1, x_2, x_3, y) = P(y) P(x_2 \mid y) P(x_1, x_3 \mid y)
Tompa007
jel bi znao neko ovog objasnit ? nemogu si namapirat ove h1,h2,h3 na one kruznice
bodilyfluids
𝐓𝐇𝐄 𝐒𝐄𝐂𝐑𝐄𝐓 - 𝐂𝐋𝐔𝐁 ima ga na predavanju ako se ne varam.
Ukratko, u predavanju postoje formule za izračun parametara za razne varijante bayesovog klasifikatora. U te formule uvrštavaš podatke iz zadataka, pa tako usporediš broj parametara.
Što se tiće složenosti, može se zaključiti da je model H2 je jednostavniji od H1 jer je on, prema njegovov definiciji, podskup modela H1. O odnosu H1 i H2 naspram H3 ne možemo baš pametno zaključiti jer oni nisu podskup modela H3.
Rene
𝐓𝐇𝐄 𝐒𝐄𝐂𝐑𝐄𝐓 - 𝐂𝐋𝐔𝐁 ne znam o kakvim kruznicama govoris, ali izracunas broj parametara za svaku model:
H1: dijagonalna kovarijacijska za svaku klasu
n * K + nK + K-1 = 109
H2: izotropna ali nije dijeljena
K + nK + K-1 = 69
H3: dijeljena
n(n+1)/2 + n*K + K-1 = 74
Jedini odgovor koji se s ovim poretkom slaze je A
sheriffHorsey
tomekbeli420 Ima smisla ovo sto kazes, ali nije mi uopce jasno kako iskombinirati onda numericke i kategoricke znacajke
Dootz
Imate to rješeno https://docs.google.com/document/d/15drigevvwo3wOvZ3uFZgCAO2hgEHdCUa-a1DTMWV7_k/edit#
Šnajder je i potvrdio da je točno i dobro objašnjeno, makar ja osobno ne razumijem neke dijelove objašnjenja.
Bananaking
Glupo pitanje ali kod algoritma k-sredina, kriterijska funkcija J je L2-norma, ako je centroid (1,2) a primjer x = (1,1), koliko iznosi J za taj primjer?
tomekbeli420
Bananaking zbroj kvadriranih euklidskih udaljenosti (euklidska udaljenost = L2 norma vektorske razlike), dakle ne korjenuje se zbroj kvadrata po dimenzijama.
\boldsymbol{\mu} = (1, 2) \qquad \mathbf{x} = (1, 1) \\
{\Vert \mathbf{x} - \boldsymbol{\mu} \Vert} ^2 = (1-1)^2 + (2-1)^2 = 1
Bananaking
sopla Super, hvala, ovo p(z|v,w,x,y) me zanimalo, imamo da je P(z|w,x,y) = P(z|x,y) ali nije mi bilo jasno jel možemo i v izbaciti