DBpedia

Tento článek je návrhem týkajícím se hnutí Wikimedia .

O své znalosti se můžete podělit vylepšením ( jak? ) Podle doporučení příslušných projektů .

DBpedia Popis obrázku DBpedia-Logo .png.

Informace
První verze 10. ledna 2007
Poslední verze 2016-10 (4. července 2017)
Vklad github.com/dbpedia
Zajištění kvality Kontinuální integrace
Napsáno Scala a Java
Jazyky Vícejazyčný ( d )
Typ Databáze znalostí
Webová databáze ( en )
Databáze odvozená z projektů Wikimedia ( d )
Graf znalostí
Licence Creative Commons Attribution - ShareAlike 3.0 Unported ( d ) , CC0 a GNU General Public License verze 2
webová stránka dbpedia.org

DBpedia je univerzitní a komunitní projekt pro automatický průzkum a extrakci dat odvozených z Wikipedie . Jeho principem je nabídnout strukturovanou a standardizovanou verzi v sémantickém webovém formátu obsahu Wikipedie. DBpedia si rovněž klade za cíl propojit Wikipedii s dalšími otevřenými datovými soubory z Web of Data  : DBpedia byl jejími autory koncipován jako jedno z „jader vznikajícího otevřeného datového webu“ (také známého jako Data Web ) a jeden z jeho možných vstupních bodů. Tento projekt je veden univerzitou v Lipsku , Svobodnou univerzitou v Berlíně a společností OpenLink Software.

Historický

Projekt byl iniciován Svobodnou univerzitou v Berlíně a univerzitou v Lipsku ve spolupráci s OpenLink Software. První veřejně dostupná datová sada byla vydána v roce 2007. Tato data, která jsou k dispozici na základě bezplatné licence , lze znovu použít.

Články na Wikipedii jsou většinou textové. Zahrnují však také strukturované informace vložené do článků, například infoboxy (rozevírací panely, které se zobrazují v pravém horním rohu výchozího zobrazení mnoha článků na Wikipedii nebo na začátku mobilního zobrazení ), informace o kategorizaci , obrázky, zeměpisné souřadnice a odkazy na externí webové stránky. Tato strukturovaná informace je extrahována a umístěna do jednotné datové sady, na kterou lze dotazovat.

Struktura datového skladu

DBPedia přijímá standardy propojené otevřené datové sítě a sémantického webu . Zdroj je proto dodáván ve formě zálohy ve formátu RDF seskupené v dokumentech odvozených z encyklopedie Wikipedia. Pro každý encyklopedický dokument tedy existuje zdrojová stránka obsahující všechna data ve formě trojitých RDF . Tyto trojčata mohou představovat informace, jako je například datum narození osoby, které bude mít podobu: ( osoba , datum narození , datum ).

Obsah

K listopadu 2010 databáze popisovala 3,4 milionu subjektů, z nichž alespoň:

Vkládání do propojených otevřených dat

Projekt DBpedia si od svého uvedení klade za cíl zapadnout do standardizované struktury, která organizuje web dat, propojenou otevřenou datovou síť . K dosažení tohoto cíle návrháři DBpedia doplňují datové extraktory sadou korespondence mezi zdrojovými dokumenty Wikipedie použitými k extrakci dat a sadou síťových prostředků propojených otevřených dat pomocí standardní značky sameAs standardu formátu RDF. A sémantický web. Výsledkem této systematické a pravidelně obohacené práce na připojení v průběhu let je, že DBpedia je propojena s velkým počtem dalších webových úložišť dat a že bylo dosaženo počátečních cílů jejích návrhářů. Mezi tato úložiště propojená DBpedia patří mimo jiné úložiště GeoNames , MusicBrainz , CIA World Factbook , Project Gutenberg a Eurostat .

Jazykové edice

První verze DBPedia byla extrahována z anglické verze Wikipedie, extraktory informací byly navrženy pouze pro použití na infoboxech této verze. Tato volba měla za následek, že pouze záznamy v anglicky mluvící verzi měly prospěch ze zastoupení ve formě dat v DBPedia: encyklopedické záznamy, které byly nalezeny pouze lokálně (politici prezentováni pouze v jiných německy mluvících vydáních nebo francouzští mluvčí Wikipedie například koncepty specifické pro kulturu) se v DBPedia neprojevily jako data RDF.

Tato původní verze DBPedia, která těží z velké vyčerpanosti anglicky mluvící verze Wikipedie, se zpočátku dokázala spokojit s tímto omezeným zdrojem extrakce informací, navzdory své nereprezentativnosti. Sémantické webové úložiště RDF není přirozeně omezeno konkrétním jazykem, protože organizuje data pouze podle svého významu .

Vytvoření dat z anglicky mluvící encyklopedie však rychle ukázalo limity pokrytí. Bylo proto rozhodnuto pokračovat ve vývoji jazykových vydání DBPedia.

francouzská verze

Zcela frankofonní verze, vyzdobená novými funkcemi, byla oficiálně představena v březnu 2012. Vyvinula ji výzkumný tým Wimmics pod vedením Fabiena Gandona v Inrii s podporou ministerstva kultury a odborných znalostí sdružení Wikimedia France .

Je k dispozici jak na webu DBpedia (tým, který jej vyvíjí, zodpovídá také za frankofonní „kapitolu“ DBpedia.org), tak na platformě SemanticPedia.org, která hostí různé sémantické projekty galaxie Wikimedia. DBpedia ve francouzštině.

Toto výzkumné úsilí bylo předmětem dohody podepsané 19. listopadu 2012 Ministerstvem kultury a komunikace , Inria a Wikimedia France . Jedná se o první partnerství mezi těmito třemi institucemi, jakož i mezi Inrií a ministerstvem, a Wikimedia France a ministerstvem.

Dostupnost

Obsah databáze je k dispozici pod duální licencí Creative Commons BY-SA 3.0 a GFDL od verze 3.4. Databáze, které tvoří úložiště, lze načíst v různých formátech (například SQL nebo CSV ). Je tedy možné vytvořit zrcadlové úložiště, nebo dokonce integrovat znalosti DBpedia do aplikace třetí strany, například sémantické anotace .

Ačkoli je obsah z Wikipedie odvozen pouze heuristickými metodami a skládá se ze strukturovaných dat, vývojáři přijali od spuštění stejné licence jako Wikipedia , což zlepšuje interoperabilitu mezi Wikipedií a DBpedia.

Přístup do datového úložiště se provádí pomocí dotazů na databázi prostřednictvím SPARQL . Jelikož jsou informace uloženy v rámci Resource Description Framework (RDF), je také možné načíst zdrojové dokumenty související s konceptem přímo přes URI, ve formátech CSV nebo RDF (zejména prostřednictvím N-Triple, N3, JSON, XML formáty).

Aplikace

Většina použití, která lze použít z dat ze sémantického webu, jsou platná pro DBpedia. V současné době jsou nejznámější z těchto aplikací ty, které jsou vytvořeny pomocí sémantických anotátorů, jako je DBpedia Spotlight nebo Wikimeta . Tyto aplikace umožňují obohatit textový dokument o sémantické anotace (tj. Představující přesný význam slova) s využitím dokumentů DBpedia jako vstupního bodu.

Jedním z příkladů je crowdsourced softwarová společnost , Ushahidi , který stavěl prototyp svého programu stejného jména s použitím DBpedia aby sémantické anotace na informace předložené ze strany veřejnosti. Prototyp s názvem COMRADES zahrnoval službu „YODIE“ (další otevřený systém vyhledávání informací) vyvinutý univerzitou v Sheffieldu , která k provádění anotací používá DBpedia. Cílem Ushahidi bylo zlepšit rychlost a snadnost, s jakou lze příchozí informace ověřovat a spravovat.

Extrakční techniky

Nástroj pro extrakci dat je svobodný software vydaný na základě GNU General Public License . Je napsán ve Scale . Jeho zdrojový kód je distribuován: je hostován na SourceForge.net a je k dispozici prostřednictvím Subversion .

Poznámky a odkazy

  1. Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak a Zachary Ives, DBpedia: Jádro pro web otevřených dat ; Přednášky sémantického webu v informatice , 2007, svazek 4825/2007, 722-735, DOI: 10.1007 / 978-3-540-76298-0_52 ( abstrakt )
  2. wiki.dbpedia.org Zdroj: datové sady
  3. DBpedia stránka web obsahuje sadu informací o metodách a prostředcích vzájemných vztahů
  4. DBpedia en
  5. http://wiki.dbpedia.org/Internationalization/Chapters
  6. http://www.culturecommunication.gouv.fr/Actualites/A-la-une/Lancement-de-DBpedia-et-de-Semanticpedia
  7. Odkazy na licence
  8. ushahidi / platformoví soudruzi , Ushahidi,30. června 2019( číst online )
  9. „  GATE.ac.uk - applications / yodie.html  “ , na adrese gate.ac.uk (přístup 11. května 2020 )
  10. wiki.dbpedia.org: Dokumentace

Podívejte se také

Související články

externí odkazy