Forum by laureateci.it
[ Home | REGOLE FORUM | Tutti i blog | Profilo | Registrati | CHAT | Discussioni Attive | Discussioni Recenti | Segnalibro | Msg privati | Sondaggi Attivi | Utenti | Download Informatica | Download ICD | Download TPS | Download Magistrale | Download Specialistica | Giochi | Cerca nel web | cerca | faq | RSS ]
Nome Utente:
Password:
Salva Password
Password Dimenticata?

 Tutti i Forum
 ITPS - Terzo Anno
 Gestione della Conoscenza d'Impresa
 Calcolo del tfidf per un documento di test
 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi
 Versione Stampabile Bookmark this Topic Aggiungi Segnalibro
I seguenti utenti stanno leggendo questo Forum Qui c'è:
Autore Discussione Precedente Discussione Discussione Successiva  

noname
Utente medio

saladfinger


Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore


Inserito il - 13/02/2009 : 10:48:40  Mostra Profilo  Visita l'Homepage di noname Invia a noname un Messaggio Privato  Rispondi Quotando
Ciao ragazzi, ho un dubbio:
tipico esercizio del K-nearest neighbors, ho 5 documenti per il training e di questi calcolo i vettori tfidf senza problemi.

Ora però ho il documento da classificare.

Il tf lo calcolo facilmente dividendo le occorrenze dei termini per l'occorrenza massima.

Il problema sorge quando calcolo l'idf.
idf=log(N/df)

LA DOMANDA
Come N considero il numero dei documenti di training + la query (6 in questo caso) e di conseguenza il df comprende la presenza del termine nella query, oppure come N considero SOLO il numero dei documenti di training e df è la frequenza del termine nei documenti di training?

Nalim
Utente medio

Diavolo rossonero


Regione: Puglia
Prov.: Bari
Città: Bari


Inserito il - 13/02/2009 : 10:56:02  Mostra Profilo  Visita l'Homepage di Nalim  Clicca per vedere l'indirizzo MSN di Nalim Invia a Nalim un Messaggio Privato  Rispondi Quotando
anche a me è sempre venuto lo stesso dubbio....

sinceramente io l' IDF lo calcolo su tutti i documenti compreso quello da verificare.

Nalim
Torna all'inizio della Pagina

noname
Utente medio

saladfinger


Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore


Inserito il - 13/02/2009 : 12:29:37  Mostra Profilo  Visita l'Homepage di noname Invia a noname un Messaggio Privato  Rispondi Quotando
Nel costruire il classificatore sono sicuro che non si considera la query. Quindi se hai 5 documenti nel Tr, N=5

Quando classifichi un documento i possibili scenari sono due:

1) N diventa 6 e il df dei termini della query sarà sempre maggiore o uguale ad 1 (nel caso in cui un termine è presente solo nella query)

2) N rimane 5 e se un termine c'è solo nella query l'idf diventa log(5/0) ... boh!!!

Propenderei per il primo...

Qualcuno ha info più precise?

Modificato da - noname in data 13/02/2009 12:30:07
Torna all'inizio della Pagina

Nalim
Utente medio

Diavolo rossonero


Regione: Puglia
Prov.: Bari
Città: Bari


Inserito il - 13/02/2009 : 13:11:30  Mostra Profilo  Visita l'Homepage di Nalim  Clicca per vedere l'indirizzo MSN di Nalim Invia a Nalim un Messaggio Privato  Rispondi Quotando
anche io ho lo stesso problema

Nalim
Torna all'inizio della Pagina

ketamine
Nuovo Utente



Inserito il - 13/02/2009 : 15:25:00  Mostra Profilo  Visita l'Homepage di ketamine  Clicca per vedere l'indirizzo MSN di ketamine Invia a ketamine un Messaggio Privato  Rispondi Quotando
www.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf" target="_blank">http://lsirwww.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf

Why so serious?

Modificato da - ketamine in data 13/02/2009 15:29:15
Torna all'inizio della Pagina

Nalim
Utente medio

Diavolo rossonero


Regione: Puglia
Prov.: Bari
Città: Bari


Inserito il - 13/02/2009 : 15:40:24  Mostra Profilo  Visita l'Homepage di Nalim  Clicca per vedere l'indirizzo MSN di Nalim Invia a Nalim un Messaggio Privato  Rispondi Quotando
cos'è questo indirizzo?

Nalim
Torna all'inizio della Pagina

noname
Utente medio

saladfinger


Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore


Inserito il - 13/02/2009 : 16:41:39  Mostra Profilo  Visita l'Homepage di noname Invia a noname un Messaggio Privato  Rispondi Quotando
Citazione:
Messaggio inserito da ketamine

www.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf" target="_blank">http://lsirwww.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf




Grande! Grazie!
Mi hai to. Ho cercato come un matto, ma tra tutti i paper scientifici niente di utile!

Gli svizzeri sono troppo avanti cmq :D
Torna all'inizio della Pagina

Nalim
Utente medio

Diavolo rossonero


Regione: Puglia
Prov.: Bari
Città: Bari


Inserito il - 13/02/2009 : 18:42:22  Mostra Profilo  Visita l'Homepage di Nalim  Clicca per vedere l'indirizzo MSN di Nalim Invia a Nalim un Messaggio Privato  Rispondi Quotando
non riesco ad aprire il sito, potresti spiegarmi in sintesi come si fa???

Nalim
Torna all'inizio della Pagina

noname
Utente medio

saladfinger


Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore


Inserito il - 13/02/2009 : 21:02:17  Mostra Profilo  Visita l'Homepage di noname Invia a noname un Messaggio Privato  Rispondi Quotando
Linko meglio la pagina:

http://tinyurl.com/d6cjj7

Vai alla settimana 10 e vedi il file pdf e l'xls per capire bene.


Modificato da - noname in data 13/02/2009 21:04:18
Torna all'inizio della Pagina

t_l_b
Utente medio

Red Apple


Regione: Puglia
Prov.: Bari
Città: Corato


Inserito il - 13/02/2009 : 22:52:59  Mostra Profilo  Visita l'Homepage di t_l_b Invia a t_l_b un Messaggio Privato  Rispondi Quotando
se nella traccia non è espressamente richiesto l'uso del knn, allora usa bayes :)

se invece l'esercizio che stai risolvendo è quello del primo esonero 2008/2009, allora nota bene che alla fine della traccia c'è scritto di rappresentare i documenti semplicemente come vettori di tf.

"Se ci capita per le mani qualche volume, per esempio, di teologia o metafisica scolastica,domandiamoci: Contiene qualche ragionamento sperimentale su questioni di fatto e di esperienza? No. E allora gettiamolo nel fuoco, perchè non contiene che sofisticherie e inganni. " [David Hume]

Modificato da - t_l_b in data 13/02/2009 22:54:38
Torna all'inizio della Pagina

Nalim
Utente medio

Diavolo rossonero


Regione: Puglia
Prov.: Bari
Città: Bari


Inserito il - 14/02/2009 : 11:20:01  Mostra Profilo  Visita l'Homepage di Nalim  Clicca per vedere l'indirizzo MSN di Nalim Invia a Nalim un Messaggio Privato  Rispondi Quotando
da quello che ho letto in caso abbiamo 5 documenti e 1 query, si calcola il tf e idf di ogni parola dei documenti, dopo si calcola il tf di ogni parola della query e dopo si moltiplica il tf della query con il rispettivo idf delle parole del documento.

se non è così fatemi sapere
ciao

Nalim
Torna all'inizio della Pagina

ketamine
Nuovo Utente



Inserito il - 16/02/2009 : 15:55:45  Mostra Profilo  Visita l'Homepage di ketamine  Clicca per vedere l'indirizzo MSN di ketamine Invia a ketamine un Messaggio Privato  Rispondi Quotando
Citazione:
Messaggio inserito da noname

Linko meglio la pagina:

http://tinyurl.com/d6cjj7

Vai alla settimana 10 e vedi il file pdf e l'xls per capire bene.





Di niente :)

Why so serious?
Torna all'inizio della Pagina

Nicla
Utente medio



Inserito il - 16/02/2009 : 16:47:03  Mostra Profilo  Visita l'Homepage di Nicla Invia a Nicla un Messaggio Privato  Rispondi Quotando
Potete fare degli esempi?!

Citazione:
Messaggio inserito da Nalim

da quello che ho letto in caso abbiamo 5 documenti e 1 query, si calcola il tf e idf di ogni parola dei documenti, dopo si calcola il tf di ogni parola della query e dopo si moltiplica il tf della query con il rispettivo idf delle parole del documento.

se non è così fatemi sapere
ciao

Torna all'inizio della Pagina
  Discussione Precedente Discussione Discussione Successiva  
 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi
 Versione Stampabile Bookmark this Topic Aggiungi Segnalibro
Vai a:
Forum by laureateci.it © 2002 - 2012 Laureateci Communications Torna all'inizio della Pagina
Il DB ha risposto in 0,3 secondi.

TargatoNA.it | SuperDeejay.Net | Antidoto.org | Brutto.it | Equiweb.it | Snitz Forum 2000