Hadoop

Informace

Tvůrce	Doug Cutting a Mike Cafarella ( v )
Vyvinul	Softwarová nadace Apache
První verze	1 st 04. 2006
Poslední verze	3.3.0 (14. července 2020)
Vklad	git-wip-us.apache.org/repos/asf/hadoop.git , gitbox.apache.org/repos/asf?p=hadoop.git a github.com/apache/hadoop
Napsáno	Jáva
Operační systém	Cross-platform a POSIX
životní prostředí	Virtuální stroj Java
Typ	Rámec
Licence	Licence Apache verze 2.0 a GNU General Public License
Dokumentace	wiki.apache.org/hadoop/HowToContribute
webová stránka	hadoop.apache.org

Hadoop je bezplatný a otevřený zdrojový rámec napsaný v Javě, jehož cílem je usnadnit vytváření distribuovaných (ukládání a zpracování dat) a škálovatelných (škálovatelných) aplikací umožňujících aplikacím pracovat s tisíci uzlů a petabajtů dat. Každý uzel je proto tvořen standardními stroji seskupenými do klastru. Všechny moduly Hadoop jsou navrženy s myšlenkou, že selhání hardwaru jsou častá, a proto by je měl rámec řešit automaticky.

Hadoop se inspiroval vydáním MapReduce , GoogleFS a BigTable of Google . Hadoop vytvořil Doug Cutting a od roku 2009 je součástí projektů Apache Software Foundation .

Jádro Hadoop se skládá z úložné části: HDFS ( Hadoop Distributed File System ) a zpracovatelské části s názvem MapReduce. Hadoop rozděluje soubory do velkých bloků a distribuuje je mezi uzly clusteru. Ke zpracování dat přenese kód do každého uzlu a každý uzel zpracuje data, která má. To umožňuje zpracovávat všechna data rychleji a efektivněji než v tradiční architektuře superpočítače který se spoléhá na paralelní souborový systém, kde jsou výpočty a data distribuována přes vysokorychlostní sítě.

Základní rámec Hadoop se skládá z následujících modulů:

Hadoop Common ;
Hadoop Distributed File System (HDFS), file system;
Hadoop YARN ;
Hadoop MapReduce ;

Termín Hadoop se vztahuje nejen na výše uvedené základní moduly, ale také na jeho ekosystém a na veškerý software, který se k němu připojí, jako je Apache Pig , Apache Hive , Apache HBase , Apache Phoenix , Apache Spark , Apache ZooKeeper , Apache Impala , Apache Flume , Apache Sqoop , Apache Oozie , Apache Storm .

Historický

V roce 2004 společnost Google zveřejnila článek představující svůj algoritmus založený na rozsáhlých analytických operacích na velkém serverovém klastru MapReduce a jeho klastrovaném souborovém systému GoogleFS . Doug Cutting , který v té době pracoval na vývoji Apache Lucene a narazil na problémy podobné problémům firmy Mountain View, se poté rozhodl použít koncepty popsané v článku k vývoji své vlastní verze nástrojů ve verzi s otevřeným zdrojovým kódem . , který se stane projektem Hadoop.

Inspiroval se přikrývkou svého pětiletého syna, žlutým slonem, pro logo a název tohoto nového rámce Java .

V roce 2006 se Doug Cutting rozhodl připojit k Yahoo s projektem Nutch a nápady založenými na rané práci Google v oblasti distribuovaného zpracování a ukládání dat.

V roce 2008 Yahoo nabídlo Hadoop jako projekt s otevřeným zdrojovým kódem.

V roce 2011 se zrodil Hadoop ve verzi 1.0.0; ze dne27. prosince 2011.

The 23. května 2012, komunita open source uvádí Hadoop 2.0, který byl veřejnosti nabízen od listopadu 2012 v rámci projektu Apache, sponzorovaného nadací Apache Software Foundation . Hlavní revolucí bylo přidání vrstvy YARN do struktury Hadoop.

Z září 2016, je vydána verze 3.0.0-alpha1.

Architektura

Systém distribuovaných souborů Hadoop

HDFS je distribuovaný , rozšiřitelný a přenosný souborový systém vyvinutý společností Hadoop z GoogleFS . Byl napsán v jazyce Java a byl navržen tak, aby ukládal velmi velké objemy dat na velkém počtu strojů vybavených standardními pevnými disky. Umožňuje abstrakci architektury fyzického úložiště, aby bylo možné manipulovat s distribuovaným souborovým systémem, jako by to byl jeden pevný disk.

Architektura strojů HDFS (také nazývaná cluster HDFS) je založena na dvou typech hlavních komponent:

NameNode namespace, tato komponenta spravuje jmenného prostoru , souborový systém stromu, a souborů a adresářů metadata . Centralizuje umístění datových bloků distribuovaných v klastru . Je jedinečný, ale má sekundární instanci, která spravuje historii úprav v systému souborů (role zálohování ). Tento sekundární NameNode umožňuje kontinuitu provozu clusteru Hadoop v případě selhání původního NameNode . DataNode datový uzel, tato komponenta ukládá a načítá datové bloky. Během procesu čtení souboru je dotazován NameNode k vyhledání všech datových bloků. Pro každý z nich NameNode vrací adresu nejdostupnějšího DataNode , tj. DataNode, který má největší šířku pásma . Tyto DataNodes pravidelně sdělují NameNode seznam datových bloků jsou hostiteli. Pokud některé z těchto bloků nejsou v klastru dostatečně replikovány , zápis těchto bloků se provádí v kaskádě kopírováním do ostatních.

Každý DataNode slouží jako blok dat v síti pomocí protokolu specifického pro HDFS. Souborový systém používá protokol TCP / IP vrstvu pro komunikaci. Klienti používají ke komunikaci mezi sebou vzdálené volání procedur . HDFS ukládá velké soubory na více strojích. Spolehlivosti dosahuje tím, že replikuje data mezi více hostiteli, a proto na nich nevyžaduje úložiště RAID . Ve výchozím nastavení replikace jsou data uložena na třech uzlech: dva na stejném médiu a jeden na jiném médiu. Tyto DataNodes mohou komunikovat za účelem vyrovnání dat a udržet vysokou úroveň replikace dat.

HDFS plně nesplňuje specifikace POSIX , protože požadavky na souborový systém POSIX se liší od cílových cílů pro aplikaci Hadoop. Kompromis, že nemáte souborový systém plně kompatibilní s POSIX, zvyšuje výkon datové propustnosti.

HDFS nedávno vylepšil své schopnosti vysoké dostupnosti, což nyní umožňuje ruční selhání primárního serveru metadat v případě selhání (je ve vývoji automatické převzetí služeb při selhání). Vzhledem k tomu, že NameNodes jsou jediným bodem pro ukládání a správu metadat , mohou být překážkou při podpoře velkého počtu souborů, zejména pokud jsou soubory malé. Přijetím více jmenných prostorů obsluhovaných samostatnými NameNodes HDFS tento problém zmírňuje.

MapReduce

Hadoop má plnou implementaci konceptu MapReduce.

HBase

HBase je distribuovaná databáze se strukturovaným úložištěm pro velké tabulky.

Stejně jako BigTable je HBase databází orientovanou na sloupce .

ZooKeeper

ZooKeeper je software pro správu konfigurace pro distribuované systémy založený na softwaru Chubby vyvinutém společností Google. ZooKeeper se používá mimo jiné pro implementaci HBase.

Úl

Hive je software pro analýzu dat, který umožňuje používat Hadoop se syntaxí podobnou SQL . Úl byl původně vyvinut společností Facebook .

Prase

Pig je software pro analýzu dat srovnatelný s Hive, který však používá jazyk Pig Latin . Pig byl původně vyvinut společností Yahoo! .

Použití

Několik velkých jmen v IT deklarovalo používání Hadoop, jako je Facebook , Yahoo , Microsoft . Yahoo provozuje největší klastr Hadoop na světě s více než 100 000 CPU a 40 000 strojů věnovaných této technologii.

WikiTrends je bezplatná služba pro analýzu publika z encyklopedie Wikipedia spuštěná vdubna 2014. Aplikace, využívající zejména Hadoop, umožňuje kvantifikovat témata, která uživatelé nejvíce vyhledávají v encyklopedii Wikipedie, prostřednictvím grafického vizualizačního rozhraní.

Hadoop a cloud

Hadoop lze nasadit v tradičním datovém centru, ale také prostřednictvím cloudu . Cloud umožňuje organizacím nasadit Hadoop bez získání konkrétního hardwaru nebo odborných znalostí.

Microsoft Azure

Azure HDInsight je služba, která nasazuje Hadoop na Microsoft Azure. HDInsight používá Hortonworks Data Platform (HDP). HDInsight umožňuje programování rozšíření v .NET (kromě Javy). HDInsight také podporuje vytváření klastrů Hadoop pomocí Ubuntu.

Pomocí HDInsight v cloudu mohou podniky provozovat tolik uzlů, kolik chtějí; budou účtovány podle výpočtu a použitého úložiště. Implementace HDP mohou také přesouvat data z místního datového centra do cloudu pro scénáře zálohování, vývoje, testování a průlomu. Je také možné spouštět clustery HDP na virtuálních počítačích Azure.

Služby Amazon EC2 / S3

Je možné spustit Hadoop na Amazon Elastic Compute Cloud (EC2) a na Amazon Simple Storage Service (S3). Například The New York Times použil 100 instancí Amazon EC2 a jednu aplikaci Hadoop ke zpracování 4 TB surových obrázků TIFF (uložených v Amazonu S3) v 11 milionech souborů PDF.

Distribuce

Hadoop je distribuován zejména čtyřmi hráči, kteří nabízejí tréninkové služby a komerční podporu a další funkce:

Cloudera - první historická distribuce Hadoopu, která integruje klasické balíčky a některé proprietární vývoj, jako je Cloudera Impala . Jedná se o vzdělávací a podpůrnou službu. U vzniku projektu Impala. Cloudera působí ve Francii od roku 2014;
Hortonworks - školení a podpůrná služba. V roce 2013 nebyl ve Francii přítomen.
MapR Technologies - MapR vyvinul souborový systém pro Hadoop překonávající omezení HDFS. MapR také vyvinul technologie umožňující odstranění NameNode, což je bod sporu v architektuře Hadoop. Klastr MapR je proto vysoce dostupný a lze jej také integrovat do zásad zálohování dat společností. Klastr MapR je v síti klientů vnímán jako NAS, který sdílí data přes NFS s právy POSIX . Je u zrodu projektu Drill. Zahájení evropských aktivit v roce 2006Leden 2013. Od té doby existuje kancelář ve FranciiBřezen 2013 ;
IBM BigInsights for Hadoop - 100% open source Apache Hadoop, nabízí analytická a integrační rozšíření do podnikových informačních systémů. Ve Francii je k dispozici od roku 2010.

Poznámky a odkazy

„ https://archive.apache.org/dist/hadoop/common/ “
„ https://hadoop.apache.org/release/3.3.0.html “
„ Publikace Google Research: MapReduce “ , na research.google.com (přístup 12. září 2016 )
(in) „ Hadoop Doug Cutting Daddy říká, že v místnosti je slon “ , The Register ,8. května 2014( číst online )
" Cloudera: Stručná historie Hadoopu, jeho tvůrce a revoluce | Silicon ”, křemík ,29. března 2012( číst online , konzultováno 17. července 2018 )
„ Hadoop - Vše, co potřebujete vědět o hlavní Big data platformu “ , na www.lebigdata.fr (přístupné 17.července 2018 )
" Apache Hadoop Release " , v hadoop.apache.org (přístupné 17.července 2018 )
Seznam společností, které tvrdí, že používají Hadoop
Apache.org, Používání Hadoop po celém světě .
„ WikiTrends, první aplikace Big Data, která poskytuje více než 21 TB statistik v reálném čase “ [PDF] , na www.itrpress.com ,3. března 2014(zpřístupněno 10. listopadu 2014 )
Marlène Duretz , „ Ani to není špatné “, Le Monde ,3. června 2014( číst online )
https://azure.microsoft.com/en-us/solutions/hadoop/
https://azure.microsoft.com/en-us/services/hdinsight/
S i Official Cloudera you, presenting its training service and support
„ Big Data: Cloudera se usazuje ve Francii “, Silicon ,7. října 2014( číst online , konzultováno 22. června 2017 )