steker oof, ne znam je li to legitimno objašnjenje lmao al ispada dobro
anyways
studoš
znači ako gledaš taj krivi gubitak i malo ga prepraviš
L \left(y, h \left(\mathbf{x}\right) \right) = \left(y + 2 h\left(\mathbf{x}\right)\right)^2 = 4\left(\frac{y}{2} + h\left(\mathbf{x}\right)\right)^2 = 4 \left(- \left(-\frac{y}{2}\right) + h\left(\mathbf{x}\right)\right)^2 = 4 \left( h\left(\mathbf{x}\right) - \left(-\frac{y}{2}\right)\right)^2
primijećujemo da kada bi svaka oznaka y bila pretvorena u -\frac{y}{2} da bi onda takva “kriva” funkcija odgovarala funkciji kvadratnog gubitka i onda bi takav prema metodi najmanjih kvadrata vratio očekivane parametre. Ovaj faktor 4 nije bitan zbog optimizacijskog postupka.
Zaključak: ako uzmemo podatke, transformiramo svaki tako da \mathbf{x} ostane kakav je, ali y promijenimo u -\frac{y}{2}, onda je implementirana funkcija kvadratni gubitak i onda će naučiti parametre za generiranje transformiranih podataka.
Dakle samo se oznaka mijenja, kako je originalno bilo da su y uzorkovane iz \mathcal{N} \left(-1 + 2x, \sigma^2\right), onda skaliranjem se samo mijenja očekivanje, prema tome -\frac{y}{2} onda dolazi iz distribucije \mathcal{N} \left(\frac{1}{2} - x, \sigma^2\right)
I iz toga je vidljivo da ćemo onda dobiti težine \left(w_0, w_1\right) = \left(\frac{1}{2}, -1\right)