Jaster111 Dataloader koristiš za iteriranje po podacima za treniranje/testiranje, tipa ovako
Samo onda ne smiješ zaboraviti da ti je izlaz iz dataloadera x_ind, tj. rečenica u kojoj su riječi zapisane preko njihovih indeksa u rječniku, dakle ovako nešto:
x_ind = [28 1 388 499 7876…], a ti želiš da ti svaka riječ u rečenici bude zapisana kao 300-dimenzionalni vektor. Te vektore su ti oni već dali u onoj glove_embeddings datoteci, i znači tamo za svaku riječ iz rječnika imaš zapisan njen 300-dim vektor iliti embedding. Tu embedding matricu napraviš kako su opisali, obavezno koristeći onaj pytorch wrapper.
I jednom kad imaš embedding matricu (konstruriraš je neovisno o modelu, te ju predaš kao parametar modela prilikom inicijalizacije), onaj x_ind od maloprije pretvaraš u njegovu vektorsku reprezentaciju x_vec koristeći embedding matricu pomoću ovog poziva:
I sad ti je x_vec u obliku u kojem ga možeš slobodno ubaciti u RNN ćeliju, i tjt.