tonkec U matematici je sve dobro definirano, samo su oni pretpostavili da mi to znamo, odnosno da se sjećamo s Matematike 2 (tamo smo bili upoznati s Jakobijanom …) .
Uglavnom, stvar je definirana ovako. Ako imaš funkciju f : \mathbb{R^n} \to \mathbb{R}^m, onda je \nabla_xf \in \mathbb{R}^{m \times n}, gdje je x \in \mathbb{R}^n. Što ti govori funkcija f? Funkciju f možeš gledati kao m skalarnih funkcija vektorske varijable (što u stvari ona i je upravo to), gdje je tvoja vektorska varijabla upravo iz \mathbb{R}^n.
Što onda možemo pročitati iz toga da je \nabla_xf \in \mathbb{R}^{m \times n}. To nam govori da je redak matrice jednak sljedećem vektoru: [\frac{df_i}{x_1} \ldots \frac{df_i}{x_n}] i tako za m redaka, odnosno i \in \{1, \ldots, m \}.
Što to govori za tvoj slučaj (rekao bi da se radi o binarnoj logističkoj regresiji). Iz izraza se vidi da je s \in \mathbb{R}, naravno, funkcija gubitka je isto skalarna funkcija, dakle L \in \mathbb{R}, a w \in \mathbb{R}^d. Stoga je \frac{dL}{ds} \in \mathbb{R}, a \frac{dL}{dw} \in \mathbb{R}^{1 \times d}.
Sada kada to znaš odrediti - dimenzije gradijenata … - sve ostalo slijedi iz toga.
Za više si pročitaj 5.2 i 5.3. iz Mathematics for Machine Learning. Ima 10 stranica i lagano se čita.