Vyvinul | Doug Cutting |
---|---|
Poslední verze | 2,4 (11. října 2019) |
Vklad | github.com/apache/nutch |
Napsáno | Jáva |
Operační systém | Multiplatformní |
životní prostředí | Windows , Mac OS X , GNU / Linux |
Číst formáty | WARC ( v ) |
Písemné formáty | WARC ( v ) |
Typ | open source vyhledávač |
Licence | Licence Apache |
webová stránka | nutch.apache.org |
Nutch je iniciativa na vybudování open source vyhledávače . Používá Lucene jako vyhledávač a indexovací knihovnu. Na druhou stranu byl sběrný robot vytvořen speciálně pro tento projekt.
Architektura společnosti Nutch je vysoce modulární a umožňuje vývojářům vytvářet doplňky pro různé fáze procesu: načítání dat, analýza dokumentů, výzkum atd.
Iniciátorem a koordinátorem tohoto projektu je Doug Cutting .
Je zcela vyvinut v jazyce Java , ale data, s nimiž manipuluje, jsou v datovém formátu nezávislém na jakémkoli programovacím jazyce. vČerven 2003 byla představena provozní verze demonstrace Nutch na databázi shromažďující 100 milionů dokumentů.
Společnost Creative Commons zahájila v roce 2004 beta verzi svého vyhledávače, který prohledává web při hledání textu, zvuku a videa a indexuje k dnešnímu dni milion stránek; to vše lze znovu volně použít za podmínek licencí poskytovaných na jejich webových stránkách.
Jejich vyhledávač je založen na prostředí RDF ( Resource Description Framework ), které používá meta-jazyk XML standardizovaný konsorciem World Wide Web Consortium (W3C).
Toto vydání se shoduje s vydáním webového prohlížeče Mozilla Firefox ve verzi 1.0, což umožňuje vyhledávat bezplatný obsah.
v ledna 2005„Nutch je dvouletý projekt, který jako první hostil Sourceforge a podporoval ho jeho vlastní nezisková organizace. Tato organizace byla založena za účelem autorských práv k projektu a zachování práva na změnu licence. Tým se rozhodl, že licence Apache je pro Nutch nejvhodnější a že již nepotřebují pomoc externí organizace. Vedoucí a vývojáři jsou nyní podporováni Apache Foundation .
Po pěti měsících inkubace se Nutch stává dílčím projektem Lucene .
Zveřejněny na 1. st června 2004 studie Lyle Benedict srovnává výsledky slavného Googlu a jeho volným protějškem Nutch v omezeném rámci univerzity stránkách státu Oregon na bázi 100 žádostí. Například na skóre od 0 do 10, kde 10 je nejlepší skóre, našla 28 žádostí, pro které Nutch a Google získaly maximální skóre .
Tyto příspěvky jsou na základě zásluh a karma . Přispěvatelé by se měli přihlásit k odběru seznamu adresátů, aby zjistili, kdo co dělá, a poslat krátký e-mail s informováním ostatních o tom, co budou dělat. Po dokončení úlohy je část kódu odeslána do seznamu adresátů (nebo připojena k hlášení o chybě), aby si každý přispěvatel mohl ověřit jeho kvalitu a relevanci .
Kritéria přijetí jsou:
Pokud je vše v pořádku, část kódu vývojáři vloží do zdrojové databáze a stane se součástí Nutch.
V prosinci 2006 se vláda v Quebecu rozhodla pro vyhledávač Nutch pro vyhledání všech svých webů na základě předvolby. K dnešnímu dni je indexováno více než 400 webů a 500 000 dokumentů .
Z Září 2004 na ledna 2010„Oregonská státní univerzita nahradila výzkumné centrum Google společností Nutch. To mu umožnilo dosáhnout významného snížení nákladů a podpořit transparentnost tohoto vyhledávače. Toto snížení bylo podle Open Source Lab odhadováno na 100 000 $ ročně .