[MAP] 1. laboratorijska vježba - 2021/2022

Ryder

Jesu li rekli možda na predavanju kako će labos izgledati ili neke detalje vezano za to?

Ducky

“Ispitajte postoje li stršeće vrijednosti koje su statistički značajne.”
Kako znamo jesu li statistički značajne?
Misle li značajne za pojedinačne zadatke ili za sve zadatke zajedno (za vektor tipa [IR_1 IR_2 IR_3 IR_4 IR_5] )?

matt

Pepper
Settao sam mu 18 -> 8 (max broj bodova) jer se vjerojatno radi o grešci prilikom upisa. -3 sam settao na 3 vodeći se istom logikom (plus ne postoje negativni bodovi). Overkill: napraviti multivarijatnu imputaciju za ta 2 podatka

Ducky
Pronađi neku od statističkih udaljenosti (mahalanobis-ovu) za sve primjere. S tim udaljenostima provedi chi kvadrat test i pronađi primjere čija je udaljenost od drugih primjera statistički značajna (npr. za alpha = 0.01)

sheriffHorsey

kako bi ja onda trebao micat NA podatke na razini cijelog dataseta? vise mi smisla ima filtrirat u kasnijim podzadacima kad me se pita da radim samo na podacima s roka/kontinuirano

komentar na ovo što je Dragi prijatelj strojnog učenja rekao; nije bitno s kojom vrijednošću zamjeniš NA-ove za IR_{1,2,3,4,5} dokle god kasnije filtiriraš studente koji su uistinu išli na IR (npr. sa varijablom otisao_na_ir 0/1) kad radiš analizu koje sadrže varijable IR_{1,2,3,4,5}. NA-ovi kod IR_{1,2,3,4,5} mogu se zamjeniti sa 0, mean, multivarijatnom imputacijom (ovo je možda fora ako želiš brzo vidjeti kakve bi bodove dobili studenti na IR-u a da nisu išli na IR)

sheriffHorsey

Što je ovdje pjesnik htio reći:

Provjerite zadovoljavaju li bodovi gore opisane uvjete predmeta,
Za nedostajuće podatke ispitajte jesu li opravdani te odaberite i primijenite tehniku upravljanja nedostajućim podatcima.

Čini mi se da sam ovo prvo pitanje već riješio s provjerom raspona vrijednosti, a za ovo drugo ne kužim jel bi ih trebao micati pošto ima smisla da su NA.

bodilyfluids

sheriffHorsey

npr jel bodovi pojedinog zadatka imaju vrijednost van raspona, jesu li spremljeni ko numercka vrijednost itd.

opravdane su NA vrijednosti u IR stupcima ali moras ih se rjesit kako bi mogao vrsit statisticku analizu

sheriffHorsey

Dragi prijatelj strojnog učenja

npr jel bodovi pojedinog zadatka imaju vrijednost van raspona, jesu li spremljeni ko numercka vrijednost itd.

jesam li ja lud ili se doslovno to radi u prva dva podzadatka?

Provjerite jesu li sve varijable očekivanog tipa,
Provjerite jesu li vrijednosti unutar zadanog raspona (s obzirom na gore opisano bodovanje),

opravdane su NA vrijednosti u IR stupcima ali moras ih se rjesit kako bi mogao vrsit statisticku analizu

kako bi ja onda trebao micat NA podatke na razini cijelog dataseta? vise mi smisla ima filtrirat u kasnijim podzadacima kad me se pita da radim samo na podacima s roka/kontinuirano

bodilyfluids

sheriffHorsey

jesam li ja lud ili se doslovno to radi u prva dva podzadatka?

asistenti su pisali vjezbu, dont think about it, whatever

NA vrijednosti u IR stupcima sam se rjesio tako da sam dodao novi stupac indikatorskih varijabli koji oznacava je li student izasao na rok, nakon toga sam IR_n NA vrijednosti zamjenio s nulama.

I nakon toga tek rjesavam ostale na vrijednosti, ak ih ima

Disclaimer nisam imao sap, mozes ovo sve shvatit kao schizo ramblings

wesley

Mogu vrijednost van raspona postavit na NA? ili moram zamijenit s nekim brojem

wesley

možda pod “zadovoljeni uvjeti predmeta” misle da se ne može desit da netko ima bodove iz ispitnog roka ako nije bio na jednom od labosa -> zato što je uvjet za polaganje roka izlazak na oba labosa

wesley

wesley ali ne piše eksplicitno da ne možeš zbog toga ići pisat ispit tako da nisam sigurna

Rene

“Prikažite upareni graf za zadatke s ispitnog roka. Na dijagonalama prikažite empirijsku distribuciju podataka, a na elementima izvan dijagonala prikažite grafove raspršenja za parove varijabli. Razmislite o karakteristikama grafova i razmislite postoje li primjeri koji odskaču od ostalih.”

Jel’ dobijate ista korisno u ovom zadatku? Koliko vidim sve je isti kurac, tj. nisu povezani zadatci medusobno
Eventualno su 1 i 2 malo bolje rješeni?

garica

Rene Jel plottas samo studente koji su izasli na rok? Meni ovako izgleda:

Rene

garica Da, ako nisam nesto sjebao sa selectanjem redaka. Probam ispocetka, hvala
EDIT: ove rezultate kao ti dobijem kad graf crtam za sve studente, sto mi nije bas jasno jer ostali imaju NA za sve bodove s roka?

garica

Rene Mozda ggpairs zanemari te NA rokove ovih koji nisu izasli pa se dobije isti rezultat, ja crtam samo za one koji jesu izasli.

Rene

garica nisi me skuzio/la, kad izdvojim ove s roka dobijem svoju sliku, kad pustim ggpairs da ih zanemari dobijem tvoju
Nije mi bas jasno u cemu je razlika ali nema veze

ppooww

Rene Probaj izdvojit studente koji su izasli na rok (~ 100 redaka) u poseban dataframe (samo stupci IR_1, …, IR_5). I onda samo napravi ggpairs(df). Vidi kako ce ti ispast onda.

garica

sto se u zadnjem zadatku misli pod provjeriti adekvatnost modela?

Rene

garica Provjera reziduala i kriterij kvalitete modela možda?

Sljedeća stranica »