V I S U A L I Z Z A D I S C U S S I O N E |
noname |
Inserito il - 13/02/2009 : 10:48:40 Ciao ragazzi, ho un dubbio: tipico esercizio del K-nearest neighbors, ho 5 documenti per il training e di questi calcolo i vettori tfidf senza problemi.
Ora però ho il documento da classificare.
Il tf lo calcolo facilmente dividendo le occorrenze dei termini per l'occorrenza massima.
Il problema sorge quando calcolo l'idf. idf=log(N/df)
LA DOMANDA Come N considero il numero dei documenti di training + la query (6 in questo caso) e di conseguenza il df comprende la presenza del termine nella query, oppure come N considero SOLO il numero dei documenti di training e df è la frequenza del termine nei documenti di training?
|
12 U L T I M E R I S P O S T E (in alto le più recenti) |
Nicla |
Inserito il - 16/02/2009 : 16:47:03 Potete fare degli esempi?!
Citazione: Messaggio inserito da Nalim
da quello che ho letto in caso abbiamo 5 documenti e 1 query, si calcola il tf e idf di ogni parola dei documenti, dopo si calcola il tf di ogni parola della query e dopo si moltiplica il tf della query con il rispettivo idf delle parole del documento.
se non è così fatemi sapere ciao
|
ketamine |
Inserito il - 16/02/2009 : 15:55:45 Citazione: Messaggio inserito da noname
Linko meglio la pagina:
http://tinyurl.com/d6cjj7
Vai alla settimana 10 e vedi il file pdf e l'xls per capire bene.
Di niente :) |
Nalim |
Inserito il - 14/02/2009 : 11:20:01 da quello che ho letto in caso abbiamo 5 documenti e 1 query, si calcola il tf e idf di ogni parola dei documenti, dopo si calcola il tf di ogni parola della query e dopo si moltiplica il tf della query con il rispettivo idf delle parole del documento.
se non è così fatemi sapere ciao |
t_l_b |
Inserito il - 13/02/2009 : 22:52:59 se nella traccia non è espressamente richiesto l'uso del knn, allora usa bayes :)
se invece l'esercizio che stai risolvendo è quello del primo esonero 2008/2009, allora nota bene che alla fine della traccia c'è scritto di rappresentare i documenti semplicemente come vettori di tf. |
noname |
Inserito il - 13/02/2009 : 21:02:17 Linko meglio la pagina:
http://tinyurl.com/d6cjj7
Vai alla settimana 10 e vedi il file pdf e l'xls per capire bene.
|
Nalim |
Inserito il - 13/02/2009 : 18:42:22 non riesco ad aprire il sito, potresti spiegarmi in sintesi come si fa???
|
noname |
Inserito il - 13/02/2009 : 16:41:39 Citazione: Messaggio inserito da ketamine
www.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf" target="_blank">http://lsirwww.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf
Grande! Grazie! Mi hai to. Ho cercato come un matto, ma tra tutti i paper scientifici niente di utile!
Gli svizzeri sono troppo avanti cmq :D |
Nalim |
Inserito il - 13/02/2009 : 15:40:24 cos'è questo indirizzo? |
ketamine |
Inserito il - 13/02/2009 : 15:25:00 www.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf" target="_blank">http://lsirwww.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf |
Nalim |
Inserito il - 13/02/2009 : 13:11:30 anche io ho lo stesso problema |
noname |
Inserito il - 13/02/2009 : 12:29:37 Nel costruire il classificatore sono sicuro che non si considera la query. Quindi se hai 5 documenti nel Tr, N=5
Quando classifichi un documento i possibili scenari sono due:
1) N diventa 6 e il df dei termini della query sarà sempre maggiore o uguale ad 1 (nel caso in cui un termine è presente solo nella query)
2) N rimane 5 e se un termine c'è solo nella query l'idf diventa log(5/0) ... boh!!!
Propenderei per il primo...
Qualcuno ha info più precise?
|
Nalim |
Inserito il - 13/02/2009 : 10:56:02 anche a me è sempre venuto lo stesso dubbio....
sinceramente io l' IDF lo calcolo su tutti i documenti compreso quello da verificare. |