Pepper
Settao sam mu 18
-> 8
(max broj bodova) jer se vjerojatno radi o grešci prilikom upisa. -3
sam settao na 3
vodeći se istom logikom (plus ne postoje negativni bodovi). Overkill: napraviti multivarijatnu imputaciju za ta 2 podatka
Ducky
Pronađi neku od statističkih udaljenosti (mahalanobis-ovu) za sve primjere. S tim udaljenostima provedi chi kvadrat test i pronađi primjere čija je udaljenost od drugih primjera statistički značajna (npr. za alpha = 0.01)
sheriffHorsey
kako bi ja onda trebao micat NA podatke na razini cijelog dataseta? vise mi smisla ima filtrirat u kasnijim podzadacima kad me se pita da radim samo na podacima s roka/kontinuirano
komentar na ovo što je Dragi prijatelj strojnog učenja rekao; nije bitno s kojom vrijednošću zamjeniš NA-ove za IR_{1,2,3,4,5}
dokle god kasnije filtiriraš studente koji su uistinu išli na IR (npr. sa varijablom otisao_na_ir
0/1) kad radiš analizu koje sadrže varijable IR_{1,2,3,4,5}
. NA-ovi kod IR_{1,2,3,4,5}
mogu se zamjeniti sa 0
, mean
, multivarijatnom imputacijom (ovo je možda fora ako želiš brzo vidjeti kakve bi bodove dobili studenti na IR-u a da nisu išli na IR)