Image vyhledávání na základě obsahu (v angličtině: obsah založený na vyhledávání obrázek nebo CBIR) je technika pro vyhledávání obrázků z jeho vizuálních charakteristik, tedy vyvolaných jejich pixelů. Obrázky jsou běžně popisovány jako obrázky odrážející jejich texturu, barvu a tvar. Typickým případem použití je hledání podle příkladu, kdy si přejete najít obrázky vizuálně podobné příkladu uvedenému v dotazu.
Technika vyhledávání obrázků podle obsahu je v protikladu k hledání obrázků podle klíčových slov nebo značek , které historicky navrhly vyhledávače, jako je Google Image, díky obrázkovým bankám, kde se obrázky nacházejí spíše pomocí doprovodného textu než obsahu samotného obrázku ( ale Google Image nyní nabízí filtry založené na obsahu (pixelech) obrázků).
Obecný princip vyhledávání obrázků podle obsahu (obrázku) má dvě fáze. Během první offline fáze ( krok indexování ) se podpisy obrazů vypočítají a uloží do databáze . Druhá fáze, známá jako výzkum, probíhá online. Uživatel odešle obrázek jako požadavek. Systém vypočítá podpis stejným způsobem jako v první fázi indexování. Tento podpis je tedy porovnán se sadou podpisů dříve uložených, aby se vrátily obrázky, které jsou nejvíce podobné požadavku.
Během fáze indexování se výpočet podpisu skládá z extrakce vizuálních charakteristik z obrázků, například:
O těchto charakteristikách se říká , že jsou nízkoúrovňové , protože jsou velmi blízké signálu a v obrazu nepřenášejí žádnou konkrétní sémantiku.
Jakmile jsou tyto charakteristiky extrahovány, srovnání obvykle spočívá v definování různých vzdáleností mezi těmito charakteristikami a v definování míry obecné podobnosti mezi dvěma obrazy. Pomocí tohoto měřítka podobnosti a obrazu požadavku je potom možné vypočítat soubor měr podobnosti mezi tímto obrázkem požadavku a sadou obrazů obrazové základny. Potom je možné objednat obrazy základny podle jejich skóre a prezentovat výsledek uživateli, přičemž obrázky s nejvyšším skóre se považují za nejpodobnější.
Tento druh systému nutně nevyžaduje k vyhledání dalších obrázků obrázek dotazu. Například je možné vyhledat spíše modré obrázky nebo nakreslit tvar a požádat o nalezení všech obrázků, které mají objekt podobného tvaru.
Mělo by se rozlišovat mezi výkonem z hlediska relevance ( odpovídají výsledky na žádost dobře? Jsou vráceny všechny možné „správné odpovědi“? ... ) a dobou odezvy na požadavek.
Kvůli nízkým vypočítaným charakteristikám získávají tyto techniky uspokojivé výsledky pro určité typy dotazů a určité základní typy obrázků. Hledejte například obrázky zasněžených krajin v databázi obrazů krajin.
Tyto systémy však mohou učinit odpovědi extravagantní a někdy velmi vzdálené myšlence, kterou měl uživatel při podání žádosti.
Analýza obrazu se obvykle provádí „offline“, a proto sama o sobě není problémem rychlosti odezvy „online“ systému. Jedná se o způsob ukládání podpisů a případně jejich velikosti, který přímo ovlivňuje dobu odezvy systémů CBIR.
Tato technologie byla vyvinuta v 90. letech pro datový výzkum v průmyslových odvětvích, lékařské zobrazování. Vznikla řada výzkumných programů a produktů. Rozpoznávání obličeje se používá například Interpol a Europol k hledání zločinců. Lze jej také použít k filtrování pornografických nebo dětských pornografických obrázků . Nejvyspělejší aplikací na konci dvacátých let je vyhledávání kopií, které se používá v boji proti padělání .
Ve světě webu vyvíjejí vyhledávací aplikace kombinující vyhledávání podle vizuálního a textového obsahu.