[PUS] 2. laboratorijska vježba - 2021/2022

Noname

Kako se sprema istrenirani model ?

vuk172

Jel i vama u 5. zadatku postane sve jaaaaaaaako sporo? Pretpostavljam da je to zbog vector assemblera.
I jel onda u 6. trebamo ponovo koristiti s vector assemblera ili samo običan count vectorizer bez Ngrama kao što je u 2. zadatku?

chuuya

vuk172 Meni je možda malo sporije al ne toliko. A za 6. ja ne koristim vector assembler nego onako kako je u 2., to mi nekak ima više smisla? A i manje je zahtjevno lol

prx_xD

sc = SparkContext.getOrCreate()
rdd_train = sc.parallelize(train)
rdd_test = sc.parallelize(test) -> train i test su meni liste at this point

Smolaa Obradiš liniju po liniju i u neku listu spremiš (id, text, label) i onda tu listu predaš u parallelize ovako kako sam gore napisala

Disklejmer ovo je sve onak kak sam ja radila, ne mora nužno bit 100% točno al eto meni daje convincing metrike pa

prx_xD

ima netko neki guide kak se radi paralelizacija?

Smolaa

Kako ucitavate ove txt fileove u rdd ?

vuk172

temari Možda sam onda nešto krivo. Jel bi mogla staviti možda kako ti izgleda pipeline za 5.?

MJ3

koliku veličinu vokabulara bi trebalo koristit?

Amon

MJ3 Ne postoji krivi odgovor na to, koristi onliko koliko možeš
Počni od 1000 i povećaj 10 puta sve dok ti ne pukne program zbog nedostatka rama ili dok mu ne treba 5 min da izračuna

Smolaa

Koliko su vam ispadali false-positive i false-negative za linearnu reg, bayes i svc ?

Noname

vuk172pipeline_ngrams_vec = Pipeline(stages=[tokenizer_ngrams_vec,remover_ngrams_vec,ngram_vec, cv_ngrams_vec_1,cv_ngrams_vec_2,vecAssembler, lr_ngrams_vec]) , s tim da cv_ngrams_vec_1 je CountVectorizer koji prima izlaz od StopWordsRemovera, a cv_ngrams_vec2 je CountVectorizer koji prima izlaz od ngrama, vecAssembler prima izlaze oba CountVectorizera

Noname

Jel netko dobije error py4j.Py4JException: Method falsePositiveRate([class java.lang.Integer]) does not exist kod izračunavanja false-postiva, za svaki label pozivam ovako methodu :
print("Class %s False positive = %s" % (label, metrics.falsePositiveRate(label)))

vuk172

Noname Meni je isto tako. Očito mi je samo jako spor laptop :')

Noname Ja nisam imala tu grešku, ali možda možeš staviti da ti samo cijelu konfuzijsku matricu vrati metrics.confusionMatrix().toArray()

Noname

Kako izgleda ispitivanje na labosu ako ga je netko vec imao?

chuuya

Noname Ništa posebno, mene je pitao kak sam napravila Bayesa, kako NGrame i kakvi su rezultati, i di sam napravila paralelizaciju i tjt, svi bodovi. Puno kraće traje neg prošli put i ništa nije trebalo mijenjat (logično tho)

Amon

Noname Ja sam morao ići po kodu malo i pitao me par pitanja kad sam naišao na neku funkciju iz uputa za labos. Basically samo trebaš znati koja funkcija radi što i gdje ih koristiš
ugl dosta easy

korisnickoime

Moze neko napisati rezultate koje je dobio?

Ducius

jel itko ima ovaj error kod linije: model = pipeline.fit(training)

Simpy

Ducius ako si instalirao biblioteke na nacin kako je to opisano tu: https://inblog.in/Install-Spark-PySpark-to-run-in-Jupyter-Notebook-on-Windows-p2eZ2qQPmO, mozda nisi pokrenuo jupyter iz dobrog environmenta. Meni je sve super radilo jucer, a danas sam pokrenuo iz obicnog cmd-a i bacilo error i onda sam se sjetio da moram pokrenut anacondin prompt (nisam siguran jel bitno da ga pokreces kao admin, ja ga uvijek tako), prebacio se u environment s “conda activate environment_name” i pokreno jupyter i sad sve radi super. Cini mi se da je ovo moje dosta specifican slucaj, ali mozda nekome dobro dode 😅

lkm

Mogao je netko uploadat svoja rjesenja s obzirom da ionako nigdje ne predajemo. Olaksajte nam svima (ili barem samo meni) ovaj zadnji labos 😇

korisnickoime

Jel jos ko imao problem da mu izbacuje upozorenje WARN DAGScheduler: Broadcasting large task binary with size 1493.1 KiB?

« Prethodna stranica