Me Bi li bilo dobro kada bismo funkciju fit_transform primijenili na cijelom skupu podataka?
Ne
Jer onda test skup gubi svoj smisao, imaš takozvani data leak.
Me Bi li bilo dobro kada bismo tu funkciju primijenili zasebno na skupu za učenje i zasebno na skupu za ispitivanje?
To ovisi što želiš postići, ali generalno ne.
Ako se to radi sekvencijalno, 2. primjena će rezultirati tzv. katastrofalnih zaboravljanjem. Uz testiranje nad testnim skupom možda se može dati procjena koliko su srodna ta 2 skupa, ali postoje bolje metode za to i konkretno ocjena performansi tog modela neće biti nepristrana, kao i u 1. slučaju.