Statisticky nepravděpodobné fráze

Statisticky Nepravděpodobné Fráze ( SIP ) je anglický doslovně znamená „statisticky nepravděpodobné fráze“ jsou nástrojem statistický byla zahájena v roce 2005 obchodním webových stránkách on-line Amazon.com pro jeho programu indexování obsahu knih Hledání uvnitř! ; spočívá v porovnání textu všech indexovaných knih, aby bylo možné pro každou z nich najít soubor frází nebo výrazů, které se objevují častěji než v ostatních knihách.

Vysvětlení

Zájem o identifikaci těchto pasáží je ten, že jsou považovány za nejvýznamnější a nejreprezentativnější v knize, což představuje ekvivalent shrnutí nebo klíčových slov , s výhodou, že jsou určovány automatizovaným způsobem.

Tato metadata jsou uživateli internetu zobrazena na kartách každé knihy. Každý SIP je doprovázen hypertextovým odkazem, který umožňuje návštěvníkům, kteří jej sledují, najít ve svých SIP další knihy se stejným výrazem. Knihy se shodnými SIP se pravděpodobně zabývají stejnými tématy, a proto pravděpodobně zaujmou i návštěvníka. Bill Carr, výkonný viceprezident pro digitální média v Amazonu, zdůrazňuje, že tento systém shody zdůrazňuje díla, která by bez něj byla těžko dostupná, protože jsou součástí dlouhého ocasu katalogu.

Použitý algoritmus není zveřejněn. Zdá se však, že SIP pro každou knihu se předefinují, když jsou do databáze přidávány nové knihy.

Užitečnost této funkce pro návštěvníky je nejistá. Benjamin Vershbow, výzkumný pracovník z Institutu pro budoucnost knihy , to považuje za automatizovaný ekvivalent značek, které jsou základem Web 2.0 , ale věří, že systém funguje lépe pro literaturu faktu než pro romány .

Amazon zvažuje různé další způsoby, jak tento nástroj dobře využít, například jeho integrací do již existujícího systému doporučení nebo odpovědí na otázky pomocí autoritativních textů v této oblasti. Vědci navíc navrhli aplikaci tohoto systému na MEDLINE .

Reference

(in) „ Co jsou statisticky nepravděpodobné fráze? », Na Amazon.com . Zpřístupněno 21. července 2008.
(in) [PDF] William Cleland, Best Practices in Digital Asset Management for Electronic Texts in Academic Research Libraries , Graduate College of Bowling Green , August 2007, 68 p. , str. 20.
(in) Brian Lavoie , Lorcan Dempsey a Lynn Silipigni Connaway , " Making údaje Pracovní Harder " , Library Journal ,15. ledna 2006( číst online ).
(in) Ryan Singel , „ Soudě podle obsahu knihy “ , Wired ,5. května 2005( číst online ).
(en) Mounir Errami , Zhaohui Sun , Angela C. George , Tara C. Long , Michael A. Skinner , Jonathan D. Wren a Harold R. Garner , „ Identifikace duplicitního obsahu pomocí statisticky nepravděpodobných vět “ , Bioinformatika , let. 26, n o 11,2010, str. 1453-1457 ( DOI 10.1093 / bioinformatika / btq146 ).
(in) Heyward Ehrlich , „ Poe in Cyberspace: A Complete Library Poe-Cyberspace Dream? ” , The Edgar Allan Poe Review , sv. VII, n o 1,jaro 2006, str. 83–92 ( JSTOR 41506253 ).
(en) Steve Weber , Plug Your Book: Online Book Marketing for Autoors , Weber Books,2007, 204 s. ( ISBN 978-0-9772406-1-6 , číst online ) , s. 128–129.

Bibliografie

(en) [PDF] Mikhail Bautin a Michael Hart, Detekce významných frází , Stony Brook University , Katedra informatiky, 14 s.
(en) [PDF] Heike Johannsen, Linking Documents by Distinctive Phrases , thesis for the Bachelor of Arts , Eberhard Karl University of Tübingen , under dir. autor: Dale Gerdemann,Březen 2007, 94 s.

Podívejte se také

Googlewhack
Hapax
TF-IDF (termín frekvence - inverzní frekvence dokumentu)