Datové jezero

Údaje jezero (anglicky Údaje jezero ) je metoda, masivní ukládání dat používají zpracování velkých objemů dat ( velkých objemů dat ve francouzštině). Tyto údaje jsou uchovávány v původních formátech nebo jsou transformovány velmi málo. Data Lake upřednostňuje rychlé a velké úložiště heterogenních dat přijetím klastrové architektury. Není optimalizován pro dotazy SQL, jako je tradiční relační DBMS , a odchyluje se od tradičních vlastností ACID . O NoSQL DBMS mluvíme od roku 2010 .

Proto najdeme v jezeře datová data různých typů a zdrojů, například:

Tato data se uchovávají v datovém jezeře pro pozdější analýzu. Jedná se o hybridní a rozmanité řešení pro správu dat s cílem rychle a levně ukládat velké množství nezpracovaných dat.

Hlavní kvalitou Data Lake je jeho flexibilita. Musí být schopen ukládat data bez ohledu na jejich formát. Když je část dat integrována do Data Lake, je jí přiřazen jedinečný identifikátor a je označena pomocí sady rozšířených značek metadat. V případě potřeby se naskenuje Data Lake, aby se našly relevantní informace. Analýza těchto údajů poté umožňuje přidat hodnotu a uspokojit tuto potřebu.

Původ pojmu

Koncept Data Lake byl poprvé zmíněn v roce 2010 Jamesem Dixonem, technickým ředitelem společnosti Penthao, jako řešení pro ukládání dat bez předzpracování a bez toho, aby přesně věděli, jaké budou budoucí využití. Obraz jezera, který umožňuje vysvětlit, že jej různé zdroje mohou krmit přirozeným a surovým způsobem a že se tam uživatelé mohou potápět, aby je prozkoumali a přivezli vzorky k prozkoumání.

Použití a funkce

Data lakes usnadňují přístup a analýzu dat pro úkoly, jako jsou:

Datové jezero je tedy nástrojem pro správu dat a metadat v různých oblastech, které vyžadují ukládání a analýzu obrovských objemů dat. Spojeno s analytickými prostředky v reálném čase a umělou inteligencí, které umožňují lepší rozvoj informací a využití příležitostí.

Tento nástroj přináší určité výhody, jako je racionalizace ukládání dat, snížení nákladů na úložiště a usnadňuje přístup pro analýzu a rozhodování holistickým způsobem. Z hlediska racionalizace datové jezero skutečně umožňuje snížit čas a náklady spojené s přípravou dat před jejich uložením, protože je zachován jejich původní formát.

K dispozici je také snížení provozních nákladů pomocí Data Lake jako úložiště pro starší data. Bez datového jezera by bylo nutné zvolit datový sklad (datový sklad) pro jejich uložení, nebo je toto řešení dražší. A konečně, prostřednictvím záruky nástroje, že údaje jsou spolehlivé a relevantní,

Několik prostředí poskytuje komplexní služby pro správu datového jezera. Většina z nich jsou založeny na Hadoop technologii a poskytují místní zařízení ( MapR , Cloudera , Hortonworks ) nebo v cloudu ( Microsoft Azure , Google Cloud Platform , Amazon S3 ).

Výhody a nevýhody

Data Lake je především prostředek úložiště, jehož výhody jsou:

Při správném použití umožňuje:

Řešení má však také některé nevýhody:

Dnes existují různé způsoby, jak ukládat data jiná než Data Lake , například datový sklad ( datový sklad ) nebo Datamart .

Reference

  1. Alain Clapaud, „  Co je to Data Lake, nový koncept„ Big Data “v módě  “ , na Le Journal du Net ,15. října 2015(zpřístupněno 22. června 2016 )
  2. (in) „  Pět nejdůležitějších rozdílů mezi datovými jezery a datovými sklady  “ na Blue-Granite.com ,26. ledna 2015(zpřístupněno 15. září 2017 )
  3. "  Data Lake: Definice a konečný průvodce | Talend  ” , na Talend Real-Time Open Source Data Integration Software (přístup 2. listopadu 2020 )
  4. (in) „  Pentaho, Hadoop a Data Lakes  “ , na blogu Jamese Dixona ,14. října 2010(zpřístupněno 15. listopadu 2020 )
  5. + Bastien L , „  Data Lake: definice, výhody a nevýhody pro společnost  “ , na LeBigData.fr ,10. července 2017(zpřístupněno 15. listopadu 2020 )
  6. „  Data lake as a Service: Amazon and Microsoft float, Google under water  “ , na journaldunet.com ,24. května 2018(zpřístupněno 22. prosince 2018 )
  7. (en-US) Daniel Gutierrez , „  Data Swamp nebo Data Lake? Pět klíčových otázek, než se ponoříte  “ , na insideBIGDATA ,23. září 2015(zpřístupněno 9. prosince 2019 )
  8. „  Data Lake Governance  “ na www.ibm.com (přístup 9. prosince 2019 )
  9. (en-US) Andrew Brust , „  Jak zabránit tomu, aby se datové jezero stalo datovým močálem  “ , na DATAVERSITY ,14. července 2017(zpřístupněno 15. prosince 2019 )
  10. Collibra , „  Data Lake vs. Data Swamp - Pushing the Analogy  ” , Collibra (přístup k 15. prosince 2019 )
  11. Philippe Nieuwbourg , „  Pojem‚datové jezera‘- datový jezeru: vysvětlení textu  “ , na Decideo - zprávy na zpracování velkých objemů dat, Business Intelligence, Data Science, dolování dat (přístup 15. prosince 2019 )

Související články