enaiks
Za prvo pitanje, svaka značajka ti je jedan klasifikator. OVO ima K povrh 2 klasifikatora, OVR ima K, gdje je K broj klasa. To znači da u ovom primjeru OVO ima 10 značajki, a OVR 5. Međutim, linearni modeli imaju problem kad su klase neuravnotežene, tj. kad jedna klasa ima puno više primjera od druge, i često ga rješavaju tako da klasificiraju sve ispitne primjere u klasu s više primjera za učenje jer tako minimiziraju empirijsku pogrešku (na štetu manje klase). Za 5 klasa i OVR, omjer primjera za svaki klasifikator je 1:4 i rezultira pogrešnom klasifikacijom primjera “znanosti” (koja je ionako 5x manja od “politike”. Zato je točan odgovor drugi ponuđeni.
Za drugo pitanje pogledaj onaj graf složenosti modela naspram empirijske pogreške učenja i ispitivanja (iz skriptice Osnovni koncepti). Pogreška učenja asimptotski teži nuli, ali ispitna pogreška pati od prevelike složenosti. Regularizacija smanjuje složenost modela ovisno o magnitudi parametara w, što kao rezultat ima bolju generalizaciju, ali lošiju prilagođenost primjerima za učenje. Za regularizirani model pogreška učenja se smanjuje do određene točke, ali zatim stagnira jer joj regularizacija ne da da teži nuli. Zato je točan odgovor drugi ponuđeni.
Newtonov postupak koristi Hesseovu matricu za čiji je izračun potrebna cijela matrica preslikavanja i zato je neiskoristiv za online učenje. Mora imati sve primjere za učenje odjednom i ne može primati jedan po jedan primjer i podešavati težine, što je moguće stohastičkim gradijentnim spustom. Newtonov je postupak doduše optimizacija drugog reda i uzima u obzir drugu derivaciju funkcije, tj. zakrivljenost plohe čime sprječava krivudanje i zato može brže konvergirati. Opet je točan odgovor drugi ponuđeni.