Datové úložiště

Pojem datový sklad nebo ESD (nebo rozhodovací databáze  ; v angličtině datový sklad nebo DWH ) znamená databázi používanou ke shromažďování, objednávání, logování a ukládání informací také z provozní databáze a poskytuje základnu pro podporu rozhodování v podnikání.

Definice a konstrukce

Datový sklad je databáze, která sdružuje některá nebo všechna funkční data společnosti. Přichází v rámci business inteligence  ; jejím cílem je poskytnout soubor dat sloužících jako jediný odkaz, který se používá pro rozhodování ve společnosti prostřednictvím statistik a zpráv vytvářených pomocí nástrojů pro podávání zpráv . Z technického hlediska se používá hlavně k „odlehčení“ provozních databází dotazy, které by mohly ovlivnit jejich výkon.

Z architektonického hlediska to lze pochopit dvěma způsoby:

Nejčastěji přijímaná definice je směsicí těchto dvou hledisek. Pojem „  datový sklad  “ zahrnuje kontejner a obsah: na jedné straně označuje podrobnou databázi, která je zdrojem dat na počátku Datamarts, a na druhé straně soubor tvořený touto podrobnou databází a její Datamarts. Současné metody návrhu rovněž berou v úvahu tyto dva přístupy, přičemž upřednostňují určité aspekty podle rizik a příležitostí obsažených v každé společnosti.

Princip činnosti

Integrace

Ve skutečnosti je datové napájení datového skladu heterogenní a pochází z různých produkčních aplikací, dokonce iz takzvaných „plochých“ souborů ( soubory Excel , textové soubory, XML atd.). Jde pak o jejich integraci, homogenizaci a poskytnutí jedinečného významu, kterému rozumí všichni uživatelé. Požadovaná transverzálnost bude o to účinnější, když bude informační systém skutečně integrován jako celek. Tato integrace vyžaduje zejména:

Problém integrace je založen na standardizaci dat interních pro společnost, ale také externích dat (například od zákazníků nebo dodavatelů).

Pouze za cenu hluboké integrace můžeme nabídnout homogenní a skutečně příčnou vizi společnosti. To předpokládá, že informační systém předcházející společnosti je dobře strukturovaný, dobře kontrolovaný a již těží z dostatečné úrovně integrace. Pokud ne, špatná kvalita dat může bránit implementaci datového skladu.

Historizace

Historizace Datawarehouse je založena na principu zachování dat (nebo nestálosti dat). V zájmu zachování sledovatelnosti informací a přijatých rozhodnutí jsou data po zadání do skladu stabilní, pouze pro čtení a uživatelé je nemohou upravovat. Stejný dotaz spuštěný několikrát v různých časech proto musí vrátit stejné výsledky. Jakmile je část dat způsobilá k zavedení do datového skladu, již ji nelze změnit, upravit nebo odstranit (do určité doby očištění). Stává se ve skutečnosti nedílnou součástí historie společnosti.

Princip nestálosti kontrastuje s logikou výrobních systémů, které velmi často aktualizují data „zrušením a nahrazením“ pro každou novou transakci. Každému shromážděnému datu je přiděleno datum nebo číslo verze, aby se zabránilo pokrytí informací, které již databáze obsahuje, a aby bylo možné sledovat jeho vývoj v čase. Tímto způsobem dochází k zachování historie.

Z funkčního hlediska tato vlastnost umožňuje sledovat vývoj indikátorů v čase a provádět srovnávací analýzy (například prodej z jednoho roku do druhého). Proto je v datovém skladu nezbytný jediný časový rámec.

Funkční organizace

Datový sklad integruje informace z více provozních aplikací do jedné databáze. Přecházíme tedy od vertikální vize společnosti diktované technickými omezeními k transverzální vizi diktované obchodními potřebami, která umožňuje funkční křížové odkazy na informace. Zájmem této organizace je mít všechny užitečné informace o předmětu, který je nejčastěji příčný k funkčním strukturám (službám) společnosti. Říkáme, že datový sklad je „obchodně“ orientovaný na různé obchodní aktivity společnosti, pro kterou připravuje analýzu. Když je datový sklad napříč funkcemi, mluvíme pak o „Datawarehouse“, když se datový sklad specializuje na obchodní oblast (finance, nákup, výroba atd.), Pak budeme hovořit spíše o „Datamart“.

Z koncepčního hlediska lze data datového skladu interpretovat ve formě indikátorů distribuovaných podle os (nebo rozměrů): například počet zákazníků (indikátor) distribuovaných podle dne prodeje, obchodu nebo segmentu zákazníci (osy). Technicky může modelování datového skladu tuto organizaci zhmotnit ve formě tabulek faktů nebo tabulek úložiště .

Datová struktura

Datový sklad je datová struktura, kterou lze obecně reprezentovat daty modelu normalizovanými 3NF ( 3NF  (in) ) pro maloobchodní data a / nebo hvězdou nebo sněhovou vločkou pro agregovaná data a v relačním DBMS (zejména pokud jde o neagregované údaje) základní nebo jednotková data ). Technický překlad tohoto modelu se často provádí v kostce OLAP .

Datový sklad je navržen tak, aby obsahoval data v souladu s potřebami organizace a centrálně odpovídal všem uživatelům. Neexistuje tedy jediné pravidlo, pokud jde o ukládání nebo modelování.

Proto lze tyto údaje uchovávat:

Kolem datového skladu

Proti proudu

V upstream od datového skladu celý dodavatelský logistický datový sklad:

Tento zdroj datového skladu je založen na zdrojových datech z transakčních produkčních systémů ve formě:

Zřízení spolehlivého zásobování datového skladu systému je často nejnákladnější položkou rozpočtu na projekt z inteligence .

Po proudu

Za datovým skladem (nebo datovými tržišti ) jsou všechny nástroje restituce a analýzy dat ( BI ):

Návrh datových skladů je proto neustále se vyvíjející proces. Z tohoto pohledu můžeme konečně datový sklad vidět jako rozhodovací architekturu, která je schopná jak řídit heterogenitu, tak změny a jejíž výzvou je transformovat data na informace přímo využitelné uživateli daného podniku.

Porovnání firemních databází

Vlastnosti Produkční databáze Datové sklady Datamarts
Chirurgická operace každodenní správa, výroba úložiště, ad hoc analýza opakující se analýza, nástroj pro správu, podpora rozhodování
Datový model subjekt / vztah 3NF, hvězda, sněhová vločka hvězdná vločka
Standardizace časté maximum vzácné (redundance informací)
Data aktuální, surový, podrobný historizovaný, podrobný historizoval, agregoval
Aktualizace okamžitý, reálný čas často odložené, periodické často odložené, periodické
Úroveň konsolidace nízký nízký Student
Vnímání vertikální příčný horizontální
Operace čtení, vkládání, aktualizace, mazání čtení, vkládání, aktualizace čtení, vkládání, aktualizace, mazání
Střih v gigabajtech v terabajtech v gigabajtech

Tyto rozdíly jsou způsobeny tím, že sklady umožňují dotazy, které mohou být složité a nemusí nutně vycházet z jedné tabulky. Důsledky transformace datového skladu na Datamart můžeme shrnout následovně: zisk v době zpracování a ztráta možnosti použití .

Příklady dotazů OLAP  :

Odpovědi na dotazy OLAP mohou trvat několik sekund až minut nebo dokonce hodin.

Dějiny

Koncept datového skladu sahá až do konce 80. let, kdy výzkumníci IBM Barry Devlin a Paul Murphy vyvinuli „obchodní datový sklad“. Koncept datového skladu měl v zásadě poskytnout architektonický model toku dat z operačních systémů do prostředí podporujících rozhodování .

Koncept se pokusil řešit různé problémy spojené s tímto tokem, zejména vysoké náklady s ním spojené. Vzhledem k absenci architektury úložiště dat bylo k podpoře rozhodování více prostředí zapotřebí enormní množství redundance . Ve velkých společnostech bylo běžné, že několik prostředí na podporu rozhodování fungovalo nezávisle. Ačkoli každé prostředí sloužilo různým uživatelům, často vyžadovali uložení velké části stejných dat. Proces shromažďování, čištění a integrace dat z různých zdrojů, obvykle dlouhodobě existujících operačních systémů (obvykle označovaných jako starší systémy ), byl obvykle částečně replikován pro každé prostředí. Kromě toho byly operační systémy často přezkoumávány, když se objevily nové potřeby podpory rozhodování. Nové požadavky často vyžadovaly sběr, čištění a integraci nových dat z „datových  trhů  “ určených pro snadný přístup uživatelů.

S vydáním publikace The IRM Imperative (Wiley & Sons, 1991) od Jamese M. Kerra vznikla myšlenka správy a přiřazení peněžní hodnoty datovým zdrojům organizace a následné hlášení této hodnoty jako aktiva v rozvaha se stala populární. V knize Kerr popsal způsob, jak naplnit doménové databáze daty odvozenými ze systémů založených na transakcích a vytvořit úložiště, kde lze souhrnná data dále využívat k informování výkonného rozhodování. Tento koncept sloužil k podpoře dalšího uvažování o tom, jak by bylo možné datový sklad prakticky vyvinout a spravovat v jakémkoli podniku.

Hlavní vývoj v prvních letech skladování dat:


Poznámky a odkazy

  1. Alain Venot , Anita Burgun a Catherine Quantin , Lékařská informatika, e-Zdraví - základy a aplikace , Springer Science & Business,18. ledna 2013( číst online ).
  2. Isabelle Comyn-Wattiau, Jacky Akoka, The databases , PUF , Que sais-je?, 978-2130533139, kap.  ix Rozhodovací databáze , 2003.
  3. Fáze návrhu datového skladu [1] .
  4. "  The Story So Far  " [ archiv of8. července 2008] ,15. dubna 2002(zpřístupněno 21. září 2008 )
  5. Kimball 2013, str. 15
  6. (in) Paul Gillin , „  Oživí trh Teradata?  " , Počítačový svět ,20. února 1984, str.  43, 48 ( číst online , konzultováno 13. března 2017 )
  7. Devlin a Murphy, „  Architektura pro obchodní a informační systém,  “ IBM Systems Journal , sv.  27,1988, str.  60–80 ( DOI  10.1147 / sj.271.0060 )
  8. Bill Inmon , Building the Data Warehouse , Wiley,1992( ISBN  0-471-56960-7 , číst online )
  9. Ralph Kimball , The Data Warehouse Toolkit , Wiley,2011( ISBN  978-0-470-14977-5 ) , str.  237

Podívejte se také

Související články

externí odkazy