Autore |
Discussione  |
|
noname
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore
|
Inserito il - 13/02/2009 : 10:48:40
|
Ciao ragazzi, ho un dubbio: tipico esercizio del K-nearest neighbors, ho 5 documenti per il training e di questi calcolo i vettori tfidf senza problemi.
Ora però ho il documento da classificare.
Il tf lo calcolo facilmente dividendo le occorrenze dei termini per l'occorrenza massima.
Il problema sorge quando calcolo l'idf. idf=log(N/df)
LA DOMANDA Come N considero il numero dei documenti di training + la query (6 in questo caso) e di conseguenza il df comprende la presenza del termine nella query, oppure come N considero SOLO il numero dei documenti di training e df è la frequenza del termine nei documenti di training?
|
|
Nalim
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Bari
|
Inserito il - 13/02/2009 : 10:56:02
|
anche a me è sempre venuto lo stesso dubbio....
sinceramente io l' IDF lo calcolo su tutti i documenti compreso quello da verificare. |
Nalim |
 |
|
noname
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore
|
Inserito il - 13/02/2009 : 12:29:37
|
Nel costruire il classificatore sono sicuro che non si considera la query. Quindi se hai 5 documenti nel Tr, N=5
Quando classifichi un documento i possibili scenari sono due:
1) N diventa 6 e il df dei termini della query sarà sempre maggiore o uguale ad 1 (nel caso in cui un termine è presente solo nella query)
2) N rimane 5 e se un termine c'è solo nella query l'idf diventa log(5/0) ... boh!!!
Propenderei per il primo...
Qualcuno ha info più precise?
|
Modificato da - noname in data 13/02/2009 12:30:07 |
 |
|
Nalim
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Bari
|
Inserito il - 13/02/2009 : 13:11:30
|
anche io ho lo stesso problema |
Nalim |
 |
|
ketamine
Nuovo Utente
|
|
Nalim
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Bari
|
Inserito il - 13/02/2009 : 15:40:24
|
cos'è questo indirizzo? |
Nalim |
 |
|
noname
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore
|
|
Nalim
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Bari
|
Inserito il - 13/02/2009 : 18:42:22
|
non riesco ad aprire il sito, potresti spiegarmi in sintesi come si fa???
|
Nalim |
 |
|
noname
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore
|
Inserito il - 13/02/2009 : 21:02:17
|
Linko meglio la pagina:
http://tinyurl.com/d6cjj7
Vai alla settimana 10 e vedi il file pdf e l'xls per capire bene.
|
Modificato da - noname in data 13/02/2009 21:04:18 |
 |
|
t_l_b
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Corato
|
Inserito il - 13/02/2009 : 22:52:59
|
se nella traccia non è espressamente richiesto l'uso del knn, allora usa bayes :)
se invece l'esercizio che stai risolvendo è quello del primo esonero 2008/2009, allora nota bene che alla fine della traccia c'è scritto di rappresentare i documenti semplicemente come vettori di tf. |
"Se ci capita per le mani qualche volume, per esempio, di teologia o metafisica scolastica,domandiamoci: Contiene qualche ragionamento sperimentale su questioni di fatto e di esperienza? No. E allora gettiamolo nel fuoco, perchè non contiene che sofisticherie e inganni. " [David Hume] |
Modificato da - t_l_b in data 13/02/2009 22:54:38 |
 |
|
Nalim
Utente medio
 

Regione: Puglia
Prov.: Bari
Città: Bari
|
Inserito il - 14/02/2009 : 11:20:01
|
da quello che ho letto in caso abbiamo 5 documenti e 1 query, si calcola il tf e idf di ogni parola dei documenti, dopo si calcola il tf di ogni parola della query e dopo si moltiplica il tf della query con il rispettivo idf delle parole del documento.
se non è così fatemi sapere ciao |
Nalim |
 |
|
ketamine
Nuovo Utente
|
Inserito il - 16/02/2009 : 15:55:45
|
Citazione: Messaggio inserito da noname
Linko meglio la pagina:
http://tinyurl.com/d6cjj7
Vai alla settimana 10 e vedi il file pdf e l'xls per capire bene.
Di niente :) |
Why so serious? |
 |
|
Nicla
Utente medio
 
|
Inserito il - 16/02/2009 : 16:47:03
|
Potete fare degli esempi?!
Citazione: Messaggio inserito da Nalim
da quello che ho letto in caso abbiamo 5 documenti e 1 query, si calcola il tf e idf di ogni parola dei documenti, dopo si calcola il tf di ogni parola della query e dopo si moltiplica il tf della query con il rispettivo idf delle parole del documento.
se non è così fatemi sapere ciao
|
 |
|
|
Discussione  |
|