V počítačovém vidění označuje detekce objektu (nebo klasifikace objektu ) metodu umožňující detekovat přítomnost instance ( rozpoznání objektu ) nebo třídy objektů v digitálním obrazu . Zvláštní pozornost je věnována detekci obličeje a detekci osob . Tyto metody často zahrnují učení pod dohledem a mají aplikace ve více oborech, jako je vyhledávání obrázků obsahu nebo video dohled .
Podle obvyklé terminologie můžeme rozlišovat detekci, lokalizaci a rozpoznávání objektů:
U lokalizovaných vizuálních entit (objekt, obličej, osoba atd.) Se detekce a lokalizace často spojují. U „abstraktnějších“ entit, jako je interiér / exteriér, den / noc, venkov / město atd., Se to liší. Což se spíše týká rozpoznávání vizuálních scén . V druhém případě nemusí mít lokalizace vždy smysl, protože koncept je přítomen v celém obrazu.
Detekce třídy objektů je obecně považována za obtížnější problém než rozpoznávání konkrétní instance, protože je nutné identifikovat společné charakteristiky třídy a přitom ignorovat rozmanitost různých instancí v rámci uvedené instance. Tato odrůda může být způsobena mnoha faktory, včetně světelných podmínek nebo úhlu pohledu, ze kterého byla fotografie pořízena. Dále se zvyšuje v případě kloubových ( tj. Netuhých) předmětů, jako jsou chodci nebo zvířata.
Obecný přístup k detekci objektu v obraze (bez apriorní znalosti podmínek fotografování) se skládá ze tří kroků:
Byly vyvinuty specifické metody pro určité typy objektů, například pro detekci obličeje nebo detekci osob . Tyto metody mohou brát v úvahu specifické vlastnosti objektu, jako je poměr stran, přítomnost očí a úst v případě tváří atd.
Cílem párování je zaregistrovat obrázky (příklad: SIFT )
Když jsou databáze obrázků velké, techniky párování se stanou neúčinnými, protože vyžadují příliš mnoho výpočtů. Metoda bag-of-visterms pak spočívá v agregaci místních detektorů podle předem definované slovní zásoby, slovníku. Inspirován technikou známou po dlouhou dobu v oblasti textu ( bag-of-words ), byl v roce 2003 navržen pro video.