prvi do boga Tbh datasetovi
Obradiš jedan dataset i to ti je već 3 GB za finetuneanje. Imaš datasetova od 50 GB koje je dobro čuvati jer nikad ne znaš kad će ih povući s neta. Npr. za neke NLP zadatke ih trenutno moraš sam scrapeati, a proći nekoliko milijuma stranice wikipedije nije baš elementarno, a i označavanje zna biti teško dostupno. Da se ne koriste unsupervised tehnike učenja kao npr. MLM, bio bi jako u kurcu jer gold-label označenih podataka praktički ni nemaš, a cijena takvih datasetova nije pristupačna običnom čovjeku, nerijetko ni kompanijama.