Statisticky Nepravděpodobné Fráze ( SIP ) je anglický doslovně znamená „statisticky nepravděpodobné fráze“ jsou nástrojem statistický byla zahájena v roce 2005 obchodním webových stránkách on-line Amazon.com pro jeho programu indexování obsahu knih Hledání uvnitř! ; spočívá v porovnání textu všech indexovaných knih, aby bylo možné pro každou z nich najít soubor frází nebo výrazů, které se objevují častěji než v ostatních knihách.
Zájem o identifikaci těchto pasáží je ten, že jsou považovány za nejvýznamnější a nejreprezentativnější v knize, což představuje ekvivalent shrnutí nebo klíčových slov , s výhodou, že jsou určovány automatizovaným způsobem.
Tato metadata jsou uživateli internetu zobrazena na kartách každé knihy. Každý SIP je doprovázen hypertextovým odkazem, který umožňuje návštěvníkům, kteří jej sledují, najít ve svých SIP další knihy se stejným výrazem. Knihy se shodnými SIP se pravděpodobně zabývají stejnými tématy, a proto pravděpodobně zaujmou i návštěvníka. Bill Carr, výkonný viceprezident pro digitální média v Amazonu, zdůrazňuje, že tento systém shody zdůrazňuje díla, která by bez něj byla těžko dostupná, protože jsou součástí dlouhého ocasu katalogu.
Použitý algoritmus není zveřejněn. Zdá se však, že SIP pro každou knihu se předefinují, když jsou do databáze přidávány nové knihy.
Užitečnost této funkce pro návštěvníky je nejistá. Benjamin Vershbow, výzkumný pracovník z Institutu pro budoucnost knihy , to považuje za automatizovaný ekvivalent značek, které jsou základem Web 2.0 , ale věří, že systém funguje lépe pro literaturu faktu než pro romány .
Amazon zvažuje různé další způsoby, jak tento nástroj dobře využít, například jeho integrací do již existujícího systému doporučení nebo odpovědí na otázky pomocí autoritativních textů v této oblasti. Vědci navíc navrhli aplikaci tohoto systému na MEDLINE .