Salve, ho un esercizio del genere:
5) Siano dati l’insieme delle categorie C={c1,c2} ed i documenti d1, d2, d3, d4, d5 con i relativi vettori di pesi tfidf non normalizzati: d1=<0.1,0.2,0.0,0.5> d2=<0.2,0.2,0.1,0.4> d3=<0.4,0.3,0.1,0.1> d4=<0.0,0.0,0.7,0.1> d5=<0.0,0.0,0.8,0.2> Sapendo che la composizione del training set è la seguente: Tr = {<d1,c1>, <d2,c2>, <d3,c1>, <d4,c2>, <d5,c1>}, indicare a quale categoria appartiene il vettore d=<0.3,0.2,0.0,0.0>, usando il metodo K Nearest-Neighbor, con K=3 e similarità del coseno. Fornire una spiegazione del risultato.
Nella traccia come potete vedere è scritto " non normalizzati", ora il mio dubbio: si normalizza? se si tramite il calcolo tf-idf e quali sarebbere i dati, osia la freq e la freq max?
|