Dootz Imaš dost mali kapacitet, ja sam radio beam search gledajući koji model će se najbolje naučiti u 1. epohi i kako sam prethodno odabrao da ću koristiti 30 značajki po slovu, onda je optimalan model bio 60×55×5 ili 60×50×5.
Da danas radim vježbu vjv bih uzeo nešto tipa 100×30×5, mislim da treba malo više od 30 točaka po slovu, 40 ili 50. Stariji kolega je radio s 200 točaka 🤣.
Dubina nije baš pomagala, vjv bi više pomoglo da imaš 6. klasu na izlazu kao “not sure”, ali mislim da je to protivno uputama, ako one kažu da imaš samo 5 klasa. Iz iskustva mogu nagađati da ti dubina neće pomoći jer u pozadini nemaš baš dobru i bogatu informaciju, i radi se o prilično jednostavnom problemu. Dubina ti služi da se nosiš s podatcima koji su daleko od klasifikacije, ovakvo uzorkovanje to definitivno nije.