Autore |
Discussione |
|
Nicla
Utente medio
|
Inserito il - 01/02/2009 : 19:00:52
|
Qualcuno sa come si risolve questo problema? "Si consideri una collezione costiutuita da 500 documenti e due query: q1 = "gestione impresa" q2 = "gestione intrapresa"
Si supponga di sapere che: -la prima query ha come risultato un insieme di 70 documenti, di cui 45 rilevanti; - la seconda query ha come risultato un insieme di 55 documenti, di cui 38 rilevanti;
quale delle due query conviene formulare?perchè?
se si sapesse anche che per ognuna delle query i documenti rilevanti nella collezione sono 90, la risposta potrebbe cambiare?perchè?"
|
|
noname
Utente medio
Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore
|
Inserito il - 01/02/2009 : 21:16:07
|
Hai il numero dei documenti rilevanti e il numero dei documenti recuperati, per cui puoi solo calcolare la precision
precision_di_q1 = 45/70 = 0.642 precision_di_q2 = 38/55 = 0.691
Per cui conviene formulare la seconda perchè ha una precision più alta.
Se sai che i documenti rilevanti sono 90 puoi anche calcolarti il recall
recall_di_q1 = 45/90 = 0.5 recall_di_q2 = 38/90 = 0.42
Il richiamo è maggiore nella prima. Quindi una è meglio dell'altra se consideri diversi parametri. Per cui devi calcolarti necessariamente l'f-measure delle due query, dando peso uguale a precisione e recall
F = 2PR / (P + R)
Fq1 = 2 * 0.642 * 0.5 / (0.642 + 0.5) = 0.562 Fq2 = 2 * 0.691 * 0.42 / (0.691 + 0.42) = 0.527
Per cui direi che è meglio q1
|
|
|
Nicla
Utente medio
|
Inserito il - 09/02/2009 : 11:59:26
|
Grazie!!!!!
potresti chiarirmi un dubbio?!
Quando bisogna calcolare il tf-idf di un elenco di documenti d1,d2,d3,d4,d5 e poi il tf-idf di un generico documento d;quali sono i valori che si inseriscono per calcolare il tf-idf di d?(N e idf) scrivo una traccia per farti capire meglio il mio dubbio:
d1=(information:2, retrieval:3) d2=(information:1, storage:2) d3=(retrieval:1,search:2) d4=(information:1,retrieval:2,vector:4) d5=(information:1,retrieval:2,vector:4)
Tr=(<d1,c1>,<d2,c1>,<d3,c2>,<d4,c2>,<d5,c2>)
d=(information:1,search:1)
grazie !!!!! |
|
|
franco.pentangeli
Nuovo Utente
Città: Ceglie
|
Inserito il - 19/02/2009 : 20:46:24
|
Ciao,
non capisco perchè, una volta calcolata la f-measure, la sottrai ad uno. Potresti essere più chiaro? Grazie
franc |
|
|
noname
Utente medio
Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore
|
Inserito il - 19/02/2009 : 22:33:52
|
Citazione: Messaggio inserito da franco.pentangeli
Ciao,
non capisco perchè, una volta calcolata la f-measure, la sottrai ad uno. Potresti essere più chiaro? Grazie
franc
Perchè ti serve sapere l'effectiveness che è uguale a: E = 1 - F
|
|
|
Nalim
Utente medio
Regione: Puglia
Prov.: Bari
Città: Bari
|
Inserito il - 26/02/2009 : 17:36:45
|
ciao a tutti qualcuno potrebbe togliermi qualche dubbio su Rocchio?
quando bisogna normalizzare i vettori?
quando la traccia ci da le occorrenze, bisogna calcolare i pese tf-idf dei vettori? oppure dobbiamo calcolarli solo se lo chiede la traccia? |
Nalim |
|
|
noname
Utente medio
Regione: Puglia
Prov.: Bari
Città: Città dell'Ammmore
|
Inserito il - 26/02/2009 : 19:24:50
|
La teoria dice di computare i vettori tfidf dei documenti di training e di quelli di test. Sommi i documenti della stessa categoria per ottenere i vettori prototipo e li confronti con i vettori dei documenti di test.
Negli esercizi dipende. Se ti dice di normalizzare con strategia del coseno (come nell'ultimo appello) non devi calcolarti i vettori tfidf, ma devi calcolarti la norma |d| per il documento d e dividere tutte le occorrenze (pesi) per |d|. Se non è richiesto nulla, procedi come dice la teoria.
Nel primo esonero c'era il K-neighbors e chiedeva di normalizzare con il term frequency. Non dovevi calcolarti i tfidf ma dividere tutte le occorrenze per l'occorrenza massima nel documento.
|
|
|
Nalim
Utente medio
Regione: Puglia
Prov.: Bari
Città: Bari
|
Inserito il - 26/02/2009 : 19:35:17
|
quindi nonostante l'algoritmo dica di calcolare sempre i tfidf, se l'esercizio non li chiede allora non serve calcolarli.
E per quanto riguarda la normalizzazione, vale la stessa cosa??? ossia se lo chiede si normalizza? |
Nalim |
|
|
Nicla
Utente medio
|
Inserito il - 16/03/2009 : 18:35:31
|
Citazione: Messaggio inserito da Nalim
quindi nonostante l'algoritmo dica di calcolare sempre i tfidf, se l'esercizio non li chiede allora non serve calcolarli.
E per quanto riguarda la normalizzazione, vale la stessa cosa??? ossia se lo chiede si normalizza?
come si normalizza? |
|
|
|
Discussione |
|