V I S U A L I Z Z A D I S C U S S I O N E |
kanc |
Inserito il - 10/11/2010 : 13:16:49 Siano dati l'insieme delle categorie C={c1,c2,c3}, la collezione di documenti D=[d1,d2,d3,d4,d5,d6]. Per ogni documento dj appartenente a D si riporta di seguito l'elenco delle parole in esso presenti con le relative occorrenze:
d1=[T1:pippo:2, T2:pluto:3, T3:paperino:1]; d2=[T1:pippo:1, T4:quo:2]; d3=[ T2:pluto:1, T5:qua:2]; d4=[T1:pippo:1, T2:pluto:2, T6:qui:4]; d5=[T1:pippo:1, T2:pluto:1, T3:paperino:5, T6:qui:1] d6=[ T3:paperino:1, T6:qui:1]
si supponga di voler utilizzare un algoritmo bayesiano per costrutire un classificatore per C. Sapendo che la composizione di training set Tr è la seguente: Tr= [<d1,c1>, <d2,c2>, <d3,c2>, <d4,c1>, <d5,c3>, <d6,c3>], stimare: - le probabilita' a priori di c1, c2 e c3; - determinare a che classe appartiene: d=[T1:pippo:2, T5:qua:1] Probabilità a priori P(c1|d)=2/6=0.33 P(c2|d)=2/6=0.33 P(c3|d)=2/6=0.33 Vocabolario V=6 P(E|c1)=(nij+1)/(ni+V) P(T1|c1)=(3+1)/(14+6) =4/20 =0.2 P(T2|c1)=(5+1)/(14+6) =6/20 =0.3 P(T3|c1)=(1+1)/(14+6) =2/20 =0.1 P(T4|c1)=(1+1)/(14+6) =2/20 =0.1 P(T5|c1)=(0+1)/(14+6) =1/20 =0.05 P(T6|c1)=(4+1)/(14+6) =5/20 =0.25 P(T1|c2)=(1+1)/(6+6) =2/12=0.16 P(T2|c2)=(1+1)/(6+6) =2/12=0.16 P(T3|c2)=(0+1)/(6+6) =1/12=0.08 P(T4|c2)=(2+1)/(6+6) =3/12=0.25 P(T5|c2)=(2+1)/(6+6) =3/12=0.25 P(T6|c2)=(0+1)/(6+6) =1/12=0.08 P(T1|c1)=(1+1)/(10+6) =2/16=0.125 P(T2|c1)=(1+1)/(10+6) =2/16=0.125 P(T3|c1)=(6+1)/(10+6) =7/16=0.437 P(T4|c1)=(0+1)/(10+6) =1/16=0.062 P(T5|c1)=(0+1)/(10+6) =1/16=0.062 P(T6|c1)=(2+1)/(10+6) =3/16=0.187 Probabilità a posteriori P(c1|d)= 0.33*0.2*0.3*0.1*0.1*0.05*0.25=2.47500 × 10-6 P(c2|d)= 0.33*0.16*0.16*0.08*0.25*0.25*0.08=3.3792 × 10-6 P(c3|d)= 0.33*0.125*0.125*0.437*0.062*0.062*0.187=1.61972165 × 10-6 Ora so che la classe con maggiore probabilità è c2 come faccio a determinare a che classe appartiene d? |
10 U L T I M E R I S P O S T E (in alto le più recenti) |
@llegr@ |
Inserito il - 15/11/2010 : 18:51:00 Citazione: Messaggio inserito da clasnic88
quindi a cosa serivrebbe calcolare la probabilità a posteriori:
P(c1|d)= 0.33*0.2*0.3*0.1*0.1*0.05*0.25=2.47500 × 10-6 P(c2|d)= 0.33*0.16*0.16*0.08*0.25*0.25*0.08=3.3792 × 10-6 P(c3|d)= 0.33*0.125*0.125*0.437*0.062*0.062*0.187=1.61972165 × 10-6
sinceramente io quella delle istanze di training non la calcolo perche' non mi e' di utilita' ma mi servono solo i dati delle prob a priori e posteriori per poi fare il calcolo sul documento dato(istanza di test) |
clasnic88 |
Inserito il - 15/11/2010 : 13:58:55 quindi a cosa serivrebbe calcolare la probabilità a posteriori:
P(c1|d)= 0.33*0.2*0.3*0.1*0.1*0.05*0.25=2.47500 × 10-6 P(c2|d)= 0.33*0.16*0.16*0.08*0.25*0.25*0.08=3.3792 × 10-6 P(c3|d)= 0.33*0.125*0.125*0.437*0.062*0.062*0.187=1.61972165 × 10-6
|
@llegr@ |
Inserito il - 15/11/2010 : 09:21:58 tranquillo, quella sezione me la sono spulciata ben bene anche se c'e' molta confusione tra gli appunti: andrebbero lasciati solo quelli corretti e non versioni su versioni... |
Spidey |
Inserito il - 14/11/2010 : 18:06:27 Ciao ragazzi, giuso per cercare di fugare i vostri dubbi potete vedere se tra gli esercizi svolti che ho caricato qui (sezione Download TPS del forum) ce ne sono di simili a quello (io ricordo che c'è almeno un esercizio che ho caricato che tratta dell'algoritmo bayesiano). Mi dispiacerebbe se andassero persi questi upload.
Ciao ciao. |
kanc |
Inserito il - 12/11/2010 : 10:52:32 :) tranquilla mi fido |
@llegr@ |
Inserito il - 11/11/2010 : 10:22:08 di nulla. magari preferivo che qualcuno che ha gia' fatto l'esame confermasse...ma non si puo' avere tutto no? |
kanc |
Inserito il - 10/11/2010 : 19:07:32 ok grazie mille :) |
@llegr@ |
Inserito il - 10/11/2010 : 18:29:10 si credo di si... |
kanc |
Inserito il - 10/11/2010 : 16:10:33 quindi se ho capito bene se fosse stato d=[T1:pippo:2, T5:qua:4] allora calcolo P(c1|d)= 0.33*(0.2)^2 *(0.05^4)= 8.25 × 10-8 P(c2|d)= 0.33*(0.16)^2*(0.25^4)= 3.3 × 10-5 P(c3|d)= 0.33*(0.125)^2*(0.062^4)= 7.61904825 × 10-8 d e' sempre di categoria 2
grazie mille |
@llegr@ |
Inserito il - 10/11/2010 : 14:55:19 considerando che d=[T1:pippo:2, T5:qua:1] allora calcolo P(c1|d)= 0.33*(0.2)^2 *0.05= 6.6*10-4 P(c2|d)= 0.33*(0.16)^2*0.25= 2.11*10-3 P(c3|d)= 0.33*(0.125)^2*0.062= 3.20*10-4 cioe' vado a calcolare la probab a priori di ci * la probab a poster di T1 (elevato al quadrato perche' ci sono due occorrenze di pippo)* la probab a poster di T5. Quindi si verifica che d e' di categoria 2
Qualcuno puo' confermare?? |