Pravděpodobnostní model relevance
Pravděpodobnostní model významem je pravděpodobnostní metoda představuje obsah dokumentu, navržený v roce 1976 Robertson a Jones. Používá se při získávání informací k vyjádření odhadu pravděpodobnosti relevance dokumentu vzhledem k dotazu, a tedy ke klasifikaci seznamu dokumentů v sestupném pořadí pravděpodobného užitečnosti pro uživatele. Jednou z přímých aplikací tohoto modelu je metoda vážení Okapi BM25 , považovaná za jednu z nejúčinnějších v oboru.
Modelování
Vzhledem k dotazu q jde o odhad skóre s (D) pro každý dokument D uvažované databáze. Toto skóre by mělo vyjadřovat relativní pravděpodobnost, že dokument je relevantní pro uvažovaný dotaz. V tomto modelu nás opravdu více zajímá relativní pořadí vrácených dokumentů než jejich absolutní relevance.
Podobně jako u jiných modelů se předpokládá, že:
- existují dokumenty relevantní pro tento požadavek z pohledu uživatele (sada dokumentů, irelevantní dokumenty jsou doplňkem této sady v databázi)R{\ displaystyle R}R¯{\ displaystyle {\ bar {R}}}
- relevance dokumentu je nezávislá na úsudcích vydaných v jiných dokumentech
- užitečnost příslušného dokumentu je nezávislá na počtu dříve vrácených příslušných dokumentů
Za těchto podmínek je relevantnost dokumentu modelována jako poměr pravděpodobnosti, že dokument je relevantní v tom, že není:
s(D|q)=P(R|D)P(R¯|D){\ displaystyle s (D | q) = {\ frac {P (R | D)} {P ({\ bar {R}} | D)}}}Z hlediska slovní zásoby je dokument charakterizován přítomností (nesprávně uvedeno ) nebo absencí ( ) každého výrazu v jeho obsahu. Použitím zejména Bayesovy věty můžeme ukázat, že skóre pravděpodobnostního modelu lze dát ve formě:
T=t1,...,tm{\ displaystyle T = {t_ {1}, \ dots, t_ {m}}}ti=1{\ displaystyle t_ {i} = 1}ti=0{\ displaystyle t_ {i} = 0}
s(D|q)=∑i=1mwi×ti{\ displaystyle s (D | q) = \ součet _ {i = 1} ^ {m} {w_ {i} \ krát t_ {i}}}Váha závisí na pravděpodobnosti přítomnosti výrazu v souboru příslušných dokumentů a jeho doplňku.
wi{\ displaystyle w_ {i}}ti{\ displaystyle t_ {i}}
Váhový výraz
Zvažte databázi, která je považována za relevantní pro dotaz. Zaznamenáním počtu dokumentů obsahujících výraz a počtu příslušných dokumentů mezi nimi je váha pravděpodobnostního modelu dána:
NE{\ displaystyle N}ne{\ displaystyle n}Ri{\ displaystyle R_ {i}}ti{\ displaystyle t_ {i}}ri{\ displaystyle r_ {i}}
wi=lÓG(rine-riRi-riNE-Ri-ne+ri)=lÓG(ri(NE-Ri-ne+ri)(ne-ri)(Ri-ri)){\ displaystyle w_ {i} = log \ left ({\ frac {\ frac {r_ {i}} {n-r_ {i}}} {\ frac {R_ {i} -r_ {i}} {N- R_ {i} -n + r_ {i}}}} \ vpravo) = log \ vlevo ({\ frac {r_ {i} (N-R_ {i} -n + r_ {i})}} {(n- r_ {i}) (R_ {i} -r_ {i})}} \ vpravo)}Abychom se vyhnuli aberantním váhám (prozaicky, dělení 0), navrhujeme vyhlazení vzorce:
wi=lÓG(ri+0,5ne-ri+0,5Ri-ri+0,5NE-Ri-ne+ri+0,5)=lÓG((ri+0,5)(NE-Ri-ne+ri+0,5)(ne-ri+0,5)(Ri-ri+0,5)){\ displaystyle w_ {i} = log \ left ({\ frac {\ frac {r_ {i} +0,5} {n-r_ {i} +0,5}} {\ frac {R_ {i} -r_ {i} +0,5} {N-R_ {i} -n + r_ {i} +0,5}}} \ right) = log \ left ({\ frac {(r_ {i} +0,5) (N-R_ {i} - n + r_ {i} +0,5)} {(n-r_ {i} +0,5) (R_ {i} -r_ {i} +0,5)}} \ vpravo)}Budeme-li zanedbávat vzít v úvahu relevantní dokumenty k dotazu ( ), najdeme tzv pravděpodobnostní vyjádření na inverzní frekvenci dokumentu :
ne=ri=0{\ displaystyle n = r_ {i} = 0}
wi=lÓG(NE-RiRi){\ displaystyle w_ {i} = log \ left ({\ frac {N-R_ {i}} {R_ {i}}} \ right)}Podívejte se také
externí odkazy
pravděpodobnostní modely (v kurzu Informační výzkum)
Reference
-
(in) Stephen E. Robertson a SPARCK Karen Jones , „ Relevantní váha hledaných výrazů “ , Journal of the American Society for Information Science , sv. 27, n o 3,
Květen-červen 1976, str. 129–146 ( číst online )
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">