branimir1999 Meni je isto ispalo da imaju slične performanse, tako vjv i treba biti
Ima tu razloga zašto je to tako, najelementarniji je taj da povratni modeli ne mogu baš najbolje modelirati distribucije čistog teksta, a ovo da ti je već bolje na početku se može i objasniti boljom inicijalizacijom i slabom mogućnosti učenja tih modela. Isto tako glove embeddinzi su već odradili većinu posla u smislu reprezentacije riječi, što onda mreža ne treba učiti. Kod CNN-ova treba za te stvari dulje jer niste koristili nikakve predtrenirane značajke kao npr. iz Resnetova, s kojim bi vam isto MNIST i CIFAR bili riješeni u par epoha.
Ako sumnjaš uvijek možeš izvrtiti evaluaciju nekoliko puta za nanovo inicijalizirani model, a ako dobiješ visoki perf nakon 1. epohe, to nije ništa previše zabrinjavajuće - ja npr. u svojim rezultatima vidim 70-75% acc nakon 1. epohe. Meni je razlog za to prilično očit - koristio sam lr=3e-4
, koji će brže konvergirati od njihovog lr=1e-4
. Ne znam jel je i tako kod tebe.