Forum by laureateci.it
[ Home | REGOLE FORUM | Tutti i blog | Profilo | Registrati | CHAT | Discussioni Attive | Discussioni Recenti | Segnalibro | Msg privati | Sondaggi Attivi | Utenti | Download Informatica | Download ICD | Download TPS | Download Magistrale | Download Specialistica | Giochi | Cerca nel web | cerca | faq | RSS ]
Nome Utente:
Password:
Salva Password
Password Dimenticata?

 Tutti i Forum
 ITPS - Terzo Anno
 Gestione della Conoscenza d'Impresa
 Calcolo del tfidf per un documento di test

Nota: Devi essere registrato per poter inserire un messaggio.
Per registrarti, clicca qui. La Registrazione è semplice e gratuita!

Larghezza finestra:
Nome Utente:
Password:
Modo:
Formato: GrassettoCorsivoSottolineatoBarrato Aggiungi Spoiler Allinea a  SinistraCentraAllinea a Destra Riga Orizzontale Inserisci linkInserisci EmailInserisci FlashInserisci Immagine Inserisci CodiceInserisci CitazioneInserisci Lista Inserisci Faccine
   
Icona Messaggio:              
             
Messaggio:

  * Il codice HTML è OFF
* Il Codice Forum è ON

Smilies
Approvazione [^] Arrabbiato [:(!] Bacio [:X] Bevuta [:273]
Caldo [8D] Compiaciuto [8)]    
compleanno [:269]
Davvero Felice [:D] Diavoletto [}:)] Disapprovazione [V] Domanda [?]
Felice [:)] Fumata [:29] Goloso [:P] Imbarazzato [:I]
Infelice [:(] Morte improvvisa da [:62]
Morto [xx(] Occhio Nero [B)] Occhiolino [;)] Palla 8 [8]
pc [:205]    
Riproduzione [:76]
Scioccato [:O]      

   Allega file
  Clicca qui per inserire la tua firma nel messaggio.
Clicca qui per sottoscrivere questa Discussione.
    

V I S U A L I Z Z A    D I S C U S S I O N E
noname Inserito il - 13/02/2009 : 10:48:40
Ciao ragazzi, ho un dubbio:
tipico esercizio del K-nearest neighbors, ho 5 documenti per il training e di questi calcolo i vettori tfidf senza problemi.

Ora però ho il documento da classificare.

Il tf lo calcolo facilmente dividendo le occorrenze dei termini per l'occorrenza massima.

Il problema sorge quando calcolo l'idf.
idf=log(N/df)

LA DOMANDA
Come N considero il numero dei documenti di training + la query (6 in questo caso) e di conseguenza il df comprende la presenza del termine nella query, oppure come N considero SOLO il numero dei documenti di training e df è la frequenza del termine nei documenti di training?

12   U L T I M E    R I S P O S T E    (in alto le più recenti)
Nicla Inserito il - 16/02/2009 : 16:47:03
Potete fare degli esempi?!

Citazione:
Messaggio inserito da Nalim

da quello che ho letto in caso abbiamo 5 documenti e 1 query, si calcola il tf e idf di ogni parola dei documenti, dopo si calcola il tf di ogni parola della query e dopo si moltiplica il tf della query con il rispettivo idf delle parole del documento.

se non è così fatemi sapere
ciao

ketamine Inserito il - 16/02/2009 : 15:55:45
Citazione:
Messaggio inserito da noname

Linko meglio la pagina:

http://tinyurl.com/d6cjj7

Vai alla settimana 10 e vedi il file pdf e l'xls per capire bene.





Di niente :)
Nalim Inserito il - 14/02/2009 : 11:20:01
da quello che ho letto in caso abbiamo 5 documenti e 1 query, si calcola il tf e idf di ogni parola dei documenti, dopo si calcola il tf di ogni parola della query e dopo si moltiplica il tf della query con il rispettivo idf delle parole del documento.

se non è così fatemi sapere
ciao
t_l_b Inserito il - 13/02/2009 : 22:52:59
se nella traccia non è espressamente richiesto l'uso del knn, allora usa bayes :)

se invece l'esercizio che stai risolvendo è quello del primo esonero 2008/2009, allora nota bene che alla fine della traccia c'è scritto di rappresentare i documenti semplicemente come vettori di tf.
noname Inserito il - 13/02/2009 : 21:02:17
Linko meglio la pagina:

http://tinyurl.com/d6cjj7

Vai alla settimana 10 e vedi il file pdf e l'xls per capire bene.

Nalim Inserito il - 13/02/2009 : 18:42:22
non riesco ad aprire il sito, potresti spiegarmi in sintesi come si fa???
noname Inserito il - 13/02/2009 : 16:41:39
Citazione:
Messaggio inserito da ketamine

www.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf" target="_blank">http://lsirwww.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf




Grande! Grazie!
Mi hai to. Ho cercato come un matto, ma tra tutti i paper scientifici niente di utile!

Gli svizzeri sono troppo avanti cmq :D
Nalim Inserito il - 13/02/2009 : 15:40:24
cos'è questo indirizzo?
ketamine Inserito il - 13/02/2009 : 15:25:00
www.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf" target="_blank">http://lsirwww.epfl.ch/courses/dis/2007ws/exercises/week10/Exercise%208%20solution.pdf
Nalim Inserito il - 13/02/2009 : 13:11:30
anche io ho lo stesso problema
noname Inserito il - 13/02/2009 : 12:29:37
Nel costruire il classificatore sono sicuro che non si considera la query. Quindi se hai 5 documenti nel Tr, N=5

Quando classifichi un documento i possibili scenari sono due:

1) N diventa 6 e il df dei termini della query sarà sempre maggiore o uguale ad 1 (nel caso in cui un termine è presente solo nella query)

2) N rimane 5 e se un termine c'è solo nella query l'idf diventa log(5/0) ... boh!!!

Propenderei per il primo...

Qualcuno ha info più precise?
Nalim Inserito il - 13/02/2009 : 10:56:02
anche a me è sempre venuto lo stesso dubbio....

sinceramente io l' IDF lo calcolo su tutti i documenti compreso quello da verificare.

Forum by laureateci.it © 2002 - 2012 Laureateci Communications Torna all'inizio della Pagina
Il DB ha risposto in 0,05 secondi.

TargatoNA.it | SuperDeejay.Net | Antidoto.org | Brutto.it | Equiweb.it | Snitz Forum 2000