Vyhledávače je webová aplikace umožňující uživateli provést on-line vyhledávání (nebo internetový vyhledávač ), to znamená, že najít prostředky z dotazu skládá z pojmů. Tyto zdroje mohou být v určitých webových stránkách , že předměty z fóra Usenet , že obrázky , jsou videa , se soubory , knihy, vzdělávací stránky, aplikace , od open source softwaru .
V zásadě obecně fungují:
Některé webové stránky nabízejí jako hlavní funkci vyhledávač; samotný web se pak nazývá „vyhledávač“. Jsou to výzkumné nástroje na webu bez lidského zásahu, které je odlišují od adresářů . Jsou založeny na „ robotech “, nazývaných také „ roboty “, „ pavouky “, „ prohledávače “ nebo „agenti“, kteří automaticky procházejí weby v pravidelných intervalech a objevují nové adresy ( URL ). Sledují hypertextové odkazy, které stránky navzájem spojují, jeden po druhém. Každá identifikovaná stránka je poté indexována v databázi , do které pak mohou uživatelé internetu přistupovat pomocí klíčových slov .
Právě zneužíváním jazyka nazýváme také webové stránky „vyhledávačů“ nabízející adresáře webových stránek: v tomto případě se jedná o výzkumné nástroje vyvinuté lidmi, kteří seznamují a klasifikují webové stránky, které jsou považovány za hodné, nikoli webové prohledávače.
Vyhledávače se nevztahují pouze na internet: některé vyhledávače jsou software nainstalovaný v osobním počítači . Jedná se o takzvané „desktopové“ enginy, které kombinují vyhledávání mezi soubory uloženými v PC a vyhledávání mezi webovými stránkami - například Copernic Desktop Search, Windex Server atd.
Existují také metasearch enginy, to znamená webové stránky, kde je stejné vyhledávání spuštěno současně na několika vyhledávačích, přičemž výsledky jsou poté sloučeny a prezentovány uživateli internetu .
Internetové vyhledávače předcházely počátkům webu na konci roku 1990:
Vyhledávače jsou inspirovány nástroji pro vyhledávání dokumentů ( obrácené soubory , tzv. Indexové soubory ) používané na sálových počítačích od 70. let, jako je software STAIRS v IBM . Způsob vyplňování jejich databází se však liší, protože je orientován na síť . Kromě toho již neexistuje rozdíl mezi formátovanými daty („poli“) a volným textem, ačkoli od roku 2010 se začal znovu zavádět prostřednictvím sémantického webu .
Historickými motory byly Lycos (1994), Altavista (1995, první 64bitový engine) a Backrub (1997), předchůdce společnosti Google .
Fungování vyhledávače jako u každého výzkumného nástroje lze rozdělit do tří hlavních procesů:
Doplňkové moduly se často používají ve spojení se třemi základními stavebními bloky vyhledávače. Nejznámější jsou následující:
Kontrola pravopisu: | Lemmatizer: | Antislovník: |
---|---|---|
Umožňuje opravit zavedené chyby
slovy žádosti, ujistěte se jejich relevance zohledněním jejich kanonická forma. |
Dává možnost redukce
hledat slova své lemma pro tak rozšířit jejich výzkumný rozsah.
|
Používá se k odstranění všech
„prázdná“ slova (například „of“, „the“, „the“) které nejsou diskriminační a které narušují skóre vyhledávání zavedením šumu . Odstranění se provádí v indexu a v žádosti. |
Za účelem optimalizace vyhledávačů, webmastery zásuvných meta - prvky (meta) na webových stránkách , v hlavičce HTML (hlava). Tyto informace umožňují optimalizovat vyhledávání informací na webových stránkách .
Weby, které primárně slouží výzkumu, jsou financovány z prodeje technologií a reklamy.
Financování reklamy spočívá v prezentaci reklam odpovídajících slovům hledaným návštěvníkem. Inzerent kupuje klíčová slova: například cestovní kancelář může koupit klíčová slova jako „dovolená“, „hotel“ a „pláž“ nebo „Cannes“, „Antibes“ a „Nice“, pokud se specializuje na tento region. Tento nákup umožňuje získat odkazování s názvem „placené odkazování“, které se bude odlišovat od odkazů s názvem „přirozené odkazování“.
Vyhledávač může zobrazit reklamu dvěma způsoby: jako samostatnou přílohu nebo jako součást výsledků vyhledávání. Pro návštěvníka vypadá samostatná vložka jako klasická reklama. Integrace do výsledků je na druhé straně na úkor relevantnosti výsledků a může mít negativní dopad na vnímanou kvalitu motoru. Z tohoto důvodu ne všechny motory prodávají investice do výsledků.
Vyhledávače jsou ekonomickým problémem. Akciová tržní hodnota holdingové společnosti Alphabet vlastněné společností Google , hlavním vyhledávačem, byla v dubnu 2020 831 miliard dolarů.
Důležitost ekonomického sázení generovala techniky nečestného přesměrování vyhledávačů k získání „přirozeného“ odkazování, spamdexingu (zneužívající odkazování ve francouzštině).
Nejpopulárnější techniky spamdexingu jsou:
Zneužívající techniky odkazování jsou pronásledovány vydavateli vyhledávačů, které představují prozatímní nebo definitivní černé listiny.
Rozlišujeme spamdexing , nepoctivé přesměrování, od „SEO“, Search Engine Optimization ( optimalizace pro vyhledávače ve francouzštině). Techniky SEO prodávají specializované společnosti.
Velké organizace (společnosti, správy) mají obecně velké množství IT zdrojů ve velkém intranetu . Protože jejich zdroje nejsou přístupné z Internetu , nejsou pokryty webovými vyhledávači. Pokud tedy chtějí prohledat své zdroje, musí si nainstalovat vlastní engine. Představují tedy trh pro vývojáře vyhledávačů. Toto se nazývá obchodní vyhledávač (viz níže).
Stává se také, že veřejné webové stránky využívají k rozšíření své nabídky služby vyhledávače. Toto se nazývá „SiteSearch“. Tento software umožňuje vyhledávání obsahu v jedné nebo více skupinách webů. Tyto technologie se používají zejména na obsahových stránkách a online prodejních stránkách. Zvláštností těchto nástrojů je často složitost implementace a nezbytné technické zdroje, které jsou k dispozici.
Velké portály mohou také využívat technologii vyhledávacích strojů. Takže Yahoo! , specialista na webový adresář , několik let používal technologii Google k vyhledávání, než v roce 2004 spustil vlastní vyhledávač Yahoo Search Technology, jehož základy pocházely od společností Altavista, Inktomi a Overture, společností, které jsou zakladateli vyhledávačů a které získala Yahoo! .
Stále více producentů obsahu podle doporučení W3C na sémantickém webu indexuje své databáze pomocí metadat nebo taxonomií ( ontologií ), aby se vyhledávací stroje mohly přizpůsobit sémantickým analýzám .
Tyto formy výzkumu a analýzy počítačového souboru informací jsou stále jen potenciály.
Ve srovnání s fulltextovým vyhledáváním by vyhledávání prováděná na sémantickém webu měla být uživatelsky přívětivější:
Přísně vzato ještě neexistuje sémantický vyhledávač, který by umožňoval porozumět otázce v přirozeném jazyce a přizpůsobit odpověď podle nalezených výsledků.
Existují však pokusy o nalezení přechodné reakce na tuto významovou problematiku při hledání informací:
Postupné opouštění tištěných adresářů vede uživatele k provádění stejných vyhledávání na internetu „profese + lokalita“. Google proto v roce 2010 získal soubor společností (pro Francii a určitý počet zemí), aby provedly kombinaci webových a adresářových dat, pokud požadavky odpovídají lokalizované aktivitě. Tento nový trend potvrzují hlavní vyhledávače a objevují se nové „smíšené nástroje“. Yandex a Baidu tento směšovací model ještě nepřijaly.
Podle studie provedené společností McKinsey & Co mělo v roce 2013 internet pouze 65% francouzských malých a středních podniků. Podle jiné studie , tento podíl dosahuje 72% u svobodných povolání (právníci, zubaři, lékaři, notáři, soudní vykonavatelé, zdravotní sestry atd.).
Vyhledávače, které ze své podstaty shromažďují pouze data z internetu, byly proto povinny tyto adresářové adresy získávat a nabízet, aby uspokojily hledání adres uživatelů internetu. Google tyto adresy pokřtil jako „Adresy Google“, poté automaticky přepnul na „Google +“, aktuálně „ Moje firma na Googlu “. Vyhledávací stroje Bing a Google nekomunikují původ těchto integrovaných firemních souborů, kromě Yahoo! která je ve spolupráci se společností Pages Jaunes .
Francie | Německo | Kanada | Spojené státy | Mexiko | Brazílie | Maroko | |
---|---|---|---|---|---|---|---|
94,21% | 94,54% | 92,38% | 84,8% | 94,9% | 97,35% | 97,31% | |
Bing | 2,95% | 2,89% | 4,31% | 5,59% | 3,36% | 1,32% | 1,79% |
Yahoo | 1,53% | 0,84% | 2,33% | 8,35% | 1,51% | 1,18% | 0,71% |
Qwant | 0,7% | ||||||
DuckDuckGo | 0,25% | 0,67% | 0,73% | 1,01% | 0,09% | 0,01% | 0,08% |
Msn | 0,1% | 0,08% | 0,1% | 0,02% | |||
Yandex | 0,03% |
Tyto metavyhledávací systém jsou nástroje pro vyhledávání, které dotaz více vyhledávačů současně a displej pro uživatele relevantní syntéza.
Příklady: Startpage , Searx , hledá a Lilo , Framabee .
Termín „ multi-engine (en) “ (nebo vzácněji „super engine“) označuje webovou stránku nabízející jeden nebo více formulářů umožňujících dotazovat více motorů. Může to být také (ale vzácněji) software, funkce nebo plugin webového prohlížeče nebo panel nástrojů ...
Výběr jednoho z motorů lze provést pomocí tlačítka , přepínače , karty , rozevíracího seznamu nebo jiného.
První stránky tohoto typu kopírovaly kód formuláře několika motorů. S příchodem JavaScriptu bylo možné mít pouze jednu formu.
Můžeme uvést například Creative Commons Search , Ecosia , Odpojit , Maxthon je vyhledávací stroj , HooSeek (uzavřen v roce 2012).
Termín „vyhledávač solidarity“ se používá k označení motoru, který věnuje část svých příjmů na ekologické, sociální nebo humanitární účely. Tyto nástroje vznikly z pozorování, že roční výnosy generované reklamou ve vyhledávačích jsou poměrně významné (kolem 45 USD na uživatele pro Google). Solidární vyhledávače vynikají zejména ve způsobu, jakým rozdělují generovaný příjem. Některé motory, jako je Ecosia, pak věnují část příjmů na jedinou věc, zatímco motory jako Lilo umožňují uživatelům internetu vybrat si, které projekty budou financovány.
Podívejte se na seznam vyhledávačů solidarity.
Pojem „vertikální motory“ označuje webovou stránku nebo multimediální službu, která nabízí specializovaný výzkum v profesionální oblasti nebo je zvláště zaměřena. Tento výzkumný nástroj se specializuje na konkrétní odvětví, jako jsou telekomunikace, právo, biotechnologie, finance (pojištění) nebo dokonce nemovitosti. Jeho obecný provoz je založen na databázi vytvořené z databází všech specializovaných stránek cílové činnosti.
Tento typ motoru používají profesionálové a je zaměřen na spotřebitele, nejčastěji s ekonomickým účelem, který vyplývá z geolokace.
Existují tedy adresáře a komparátory pro širokou veřejnost. Nyní jsou k dispozici pro všechny činnosti: nemovitosti, cestovní ruch, hledání zaměstnání, nábor, automobil, volný čas, hry.
Explicita v množství obsahu různých formátů (data, nestrukturované informace, obrázky, videa atd.), Které jsou k dispozici ve společnostech, je tlačí k tomu, aby se vybavily interním vyhledávačem.
Podle studie provedené společností MARKESS International v roce 2006 Února 2008, 49% organizací již používá podnikový vyhledávač a 18% jej plánuje použít do roku 2010. Tyto vyhledávače jsou většinou integrovány do pracovních stanic nebo nástrojů pro správu elektronických dokumentů , ale jsou v rostoucím počtu společností schopných pokrýt jak interní a externí obsah společnosti nebo integrovaný do nástrojů pro správu obsahu nebo řešení business intelligence.
Mezi hráče nabízející podnikové vyhledávače patří Google , Exalead , PolySpot nebo OpenSearchServer .
Technologie jazykové analýzy, jako je lemmatizace, extrakce pojmenovaných entit, klasifikace a shlukování, mohou výrazně zlepšit fungování vyhledávačů. Tyto technologie umožňují jak zlepšit relevanci výsledků, tak zapojit uživatele internetu do efektivnějšího procesu vyhledávání, jak je tomu u fazetového vyhledávání .
Podle studie ADEME „Internet, e-maily, snižování dopadů“ zveřejněné vúnor 2014Přejděte přímo na adresu webu nebo zadejte jeho adresu v prohlížeči, a to buď tak, že jej zaregistrujete jako „oblíbený“ (namísto vyhledávání na webu pomocí vyhledávače) děleno 4 emisními skleníkovými plyny .