Pravděpodobnostní model relevance

Pravděpodobnostní model významem je pravděpodobnostní metoda představuje obsah dokumentu, navržený v roce 1976 Robertson a Jones. Používá se při získávání informací k vyjádření odhadu pravděpodobnosti relevance dokumentu vzhledem k dotazu, a tedy ke klasifikaci seznamu dokumentů v sestupném pořadí pravděpodobného užitečnosti pro uživatele. Jednou z přímých aplikací tohoto modelu je metoda vážení Okapi BM25 , považovaná za jednu z nejúčinnějších v oboru.

Modelování

Vzhledem k dotazu q jde o odhad skóre s (D) pro každý dokument D uvažované databáze. Toto skóre by mělo vyjadřovat relativní pravděpodobnost, že dokument je relevantní pro uvažovaný dotaz. V tomto modelu nás opravdu více zajímá relativní pořadí vrácených dokumentů než jejich absolutní relevance.

Podobně jako u jiných modelů se předpokládá, že:

existují dokumenty relevantní pro tento požadavek z pohledu uživatele (sada dokumentů, irelevantní dokumenty jsou doplňkem této sady v databázi) $R$ ${\ displaystyle {\ bar {R}}}$
relevance dokumentu je nezávislá na úsudcích vydaných v jiných dokumentech
užitečnost příslušného dokumentu je nezávislá na počtu dříve vrácených příslušných dokumentů

Za těchto podmínek je relevantnost dokumentu modelována jako poměr pravděpodobnosti, že dokument je relevantní v tom, že není:

{\ displaystyle s (D | q) = {\ frac {P (R | D)} {P ({\ bar {R}} | D)}}}

Z hlediska slovní zásoby je dokument charakterizován přítomností (nesprávně uvedeno ) nebo absencí ( ) každého výrazu v jeho obsahu. Použitím zejména Bayesovy věty můžeme ukázat, že skóre pravděpodobnostního modelu lze dát ve formě: $T = {t_1, \ dots, t_m}$ ${\ displaystyle t_ {i} = 1}$ ${\ displaystyle t_ {i} = 0}$

{\ displaystyle s (D | q) = \ součet _ {i = 1} ^ {m} {w_ {i} \ krát t_ {i}}}

Váha závisí na pravděpodobnosti přítomnosti výrazu v souboru příslušných dokumentů a jeho doplňku. $w_ {i}$ $t_i$

Váhový výraz

Zvažte databázi, která je považována za relevantní pro dotaz. Zaznamenáním počtu dokumentů obsahujících výraz a počtu příslušných dokumentů mezi nimi je váha pravděpodobnostního modelu dána: $NE$ $ne$ $R_ {i}$ $t_i$ $r_i$

{\ displaystyle w_ {i} = log \ left ({\ frac {\ frac {r_ {i}} {n-r_ {i}}} {\ frac {R_ {i} -r_ {i}} {N- R_ {i} -n + r_ {i}}}} \ vpravo) = log \ vlevo ({\ frac {r_ {i} (N-R_ {i} -n + r_ {i})}} {(n- r_ {i}) (R_ {i} -r_ {i})}} \ vpravo)}

Abychom se vyhnuli aberantním váhám (prozaicky, dělení 0), navrhujeme vyhlazení vzorce:

{\ displaystyle w_ {i} = log \ left ({\ frac {\ frac {r_ {i} +0,5} {n-r_ {i} +0,5}} {\ frac {R_ {i} -r_ {i} +0,5} {N-R_ {i} -n + r_ {i} +0,5}}} \ right) = log \ left ({\ frac {(r_ {i} +0,5) (N-R_ {i} - n + r_ {i} +0,5)} {(n-r_ {i} +0,5) (R_ {i} -r_ {i} +0,5)}} \ vpravo)}

Budeme-li zanedbávat vzít v úvahu relevantní dokumenty k dotazu ( ), najdeme tzv pravděpodobnostní vyjádření na inverzní frekvenci dokumentu : ${\ displaystyle n = r_ {i} = 0}$

{\ displaystyle w_ {i} = log \ left ({\ frac {N-R_ {i}} {R_ {i}}} \ right)}

Podívejte se také

externí odkazy

pravděpodobnostní modely (v kurzu Informační výzkum)

Reference

(in) Stephen E. Robertson a SPARCK Karen Jones , „ Relevantní váha hledaných výrazů “ , Journal of the American Society for Information Science , sv. 27, n o 3, Květen-červen 1976, str. 129–146 ( číst online )