oat 40 × 45 × 5, išao sam dok se greška ne prestane smanjivati ili do 1000 epoha. Learning rate mi je bio schedulan, Reduce LR on Plateau, s faktorom 0.7 ak se ne varam, i pretpostavljan da je početni bio 3e-4
.
Možda je bilo i manje od par minuta, možda tipa 30 s, trebalo bi istestirati, i svakako ovisi o metodi (GD je trebao oko 120 epoha, SGD oko 700-800 ak se dobro sjećam, to je dost velika razlika). S tim da moje epohe su veće kad sam si napravio duplo veći dataset. I upitno je koliko sam optimalno ovo implementirao kad mi je to bio 1. doticaj s numpyjem i nisam pazio na implementaciju.
A iz iskustva znam reći da cifre od par minuta definitivno nisu previše za treniranje na čipu, pogotovo ne na tadašnjem i3-2120m kojeg sam imao. Za MNIST ti treba taj red veličine vremena na čipu, a MNIST je daleko teži zadatak od ovog za jednoslojnu mrežu bez augmentacije i normalizacije.
For reference pričam o zadatku s gestama, ovo sa sinusima nemam pojma, ne sjećam se uopće da sam to radio.
Bottom line
Python definitivno nije nešto što sputava Numpy koji je pretežito napisan u Cythonu, C-u i Asembleru.