Vysoká dostupnost

Vysoká dostupnost nebo vysoké dostupnosti ( HA ) je termín často používán v počítači , informace o architektuře systému nebo službu k označení skutečnosti, že tato architektura nebo služba má Míra dostupnosti vhodného.

Dostupnost je dnes důležitou otázkou pro IT infrastruktury. Studie z roku 2007 odhaduje, že nedostupnost IT služeb může mít cenu 440 000 eur za hodinu, což představuje celonárodní miliardy eur. Nedostupnost služeb IT je v průmyslu obzvláště kritická, zejména v případě zastavení výrobní linky.

Ke zlepšení dostupnosti se používají dva doplňkové prostředky:

Měření míry dostupnosti

Dostupnost se často měří v procentech:

Dostupnost v% Nedostupnost za rok Nedostupnost za měsíc Nedostupnost za týden
90% („nový“) 36,5 dne 72 hodin 16,8 hodin
95% 18,25 dnů 36 hodin 8,4 hodiny
98% 7,30 dnů 14,4 hodiny 3,36 hodiny
99% („two nines“) 3,65 dne 7,20 hodin 1,68 hodiny
99,5% 1,83 dne 3,60 hodiny 50,4 minuty
99,8% 17,52 hodiny 86,23 minut 20,16 minuty
99,9% („tři devítky“) 8,76 hodin 43,2 minut 10,1 minuty
99,95% 4,38 hodiny 21,56 minuty 5,04 minuty
99,99% („čtyři devítky“) 52,56 minuty 4,32 minuty 1,01 minuty
99,999% („pět devíti“) 5,26 minuty 25,9 sekundy 6,05 sekundy
99,9999% („šest devíti“) 31,5 sekundy 2,59 sekundy 0,605 sekundy

Vysoká dostupnost je často mylně zaměňována s plánem obnovy po katastrofě . Jedná se o dva různé doplňkové úkoly k dosažení nepřetržité dostupnosti .

Techniky ke zlepšení dostupnosti

Ke zlepšení dostupnosti se používá mnoho technik:

Vysoká dostupnost nejčastěji vyžaduje vhodnou místnost: stabilizovaný napájecí zdroj, klimatizace na podlaze, s filtrem pevných částic, údržba, bezpečnostní služba a zabezpečení proti zákeřným záměrům a krádeži. Věnujte také pozornost riziku požáru a poškození vodou. Napájecí a komunikační kabely musí být vícenásobné a zakopané. Neměli by vyčnívat do podzemního parkoviště budovy, které je v pařížských budovách příliš často vidět. Tato kritéria jsou první, která se berou v úvahu při výběru poskytovatele ubytování (případ pronájmu pokoje s vysokou dostupností).

Pro každou úroveň architektury, pro každou komponentu, každé propojení mezi komponentami je nutné stanovit:

Závislost na jiných aplikacích

U aplikace, která používá jiné aplikace s middlewarem v synchronním režimu ( webová služba v http , Tuxedo , Corba , EJB ), bude míra dostupnosti aplikace silně spojena s dostupností aplikací, na kterých závisí. Citlivost aplikací, na kterých jsme závislí, proto musí být ekvivalentní nebo větší než citlivost samotné aplikace.

Jinak zvažte

Z tohoto důvodu budeme upřednostňovat použití asynchronního middlewaru, abychom upřednostňovali dobrou dostupnost, pokud je to možné.

Rozložení zátěže a citlivost

Citlivost je často řízena redundantními prvky s mechanismem vyrovnávání zatížení. (například cluster Websphere s Alteonem pro vyrovnávání zatížení). Aby tento systém poskytoval skutečný zisk z hlediska spolehlivosti, je nutné ověřit, že pokud je některý z prvků vadný, zbývající prvky mají dostatečný výkon k zajištění služby.

Jinými slovy, v případě dvou aktivních serverů s vyrovnáváním zátěže musí být výkon jediného serveru schopen zajistit celkovou zátěž. U tří serverů by výkon jednoho serveru měl poskytovat 50% zátěže (za předpokladu, že pravděpodobnost selhání na dvou serverech současně je zanedbatelná).

Aby byla zajištěna dobrá dostupnost, není nutné dávat velké množství serverů, které si navzájem pomáhají. Například 99% dostupný prvek, který je jednou nadbytečný, poskytuje 99,99% dostupnost (pravděpodobnost, že oba prvky selžou současně = 1 / 100x1 / 100 = 1/10000).

Diferenční redundance

Redundance prvku se obvykle provádí výběrem redundance s několika identickými komponentami. To předpokládá, že je efektivní, že porucha jedné ze složek je náhodná a nezávislá na selhání jedné z ostatních složek. To je například případ selhání hardwaru.

To neplatí pro všechny poruchy: například může dojít k poruše v operačním systému nebo anomálii softwarové součásti, pokud jsou podmínky příznivé, na všech součástech současně. Z tohoto důvodu, když je aplikace extrémně citlivá, budeme uvažovat o nadbytečných prvcích s komponentami různé povahy, ale poskytujících stejné funkce. To může vést k:

Redundance s hlasovacím systémem

V tomto režimu různé komponenty zpracovávají stejné vstupy, a proto (v zásadě) produkují stejné výstupy.

Výsledky produkované všemi komponentami jsou shromážděny a poté je implementován algoritmus k vytvoření konečného výsledku. Algoritmus může být jednoduchý (hlasování většinou) nebo složitý (průměr, vážený průměr , medián atd.), Jehož cílem je eliminovat chybné výsledky, které lze přičíst nesprávné funkci jedné ze složek, nebo zvýšit spolehlivost součásti. kombinací několika mírně odlišných výsledků.

Tento proces :

Tento proces se obvykle používá v následujících případech

"Stínové operace"

Pokud redundantní součást nefunguje správně a po opravě ji možná budete chtít znovu zavést do aktivní služby, ověřit, zda skutečně funguje správně, ale bez použití výsledků. V tomto případě jsou vstupy zpracovávány jednou (nebo více) považovanými za spolehlivé komponenty. Ty produkují výsledek využívaný zbytkem systému. Stejné položky zpracovává také znovuzavedená součást, o které se říká, že je v „stínovém“ režimu. Správné fungování součásti lze ověřit porovnáním získaných výsledků s výsledky spolehlivých součástí. Tento proces se často používá v systémech založených na hlasování, protože stačí vyloučit složku v „stínovém“ režimu z konečného hlasování.

Procesy, které pomáhají zlepšit provozuschopnost

V těchto procesech můžeme rozlišit dvě role.

Procesy, které snižují počet výpadků

Na základě předpokladu, že prevence je lepší než léčba , zavedení kontrolních procesů, které sníží počet incidentů v systému, zlepšuje dostupnost. Tuto roli umožňují hrát dva procesy:

Implementací těchto dvou procesů lze zabránit mnoha incidentům.

Procesy snižující dobu odstávek

K poruchám dochází vždy. V tomto okamžiku je proces obnovení v případě chyby zásadní, aby bylo zajištěno co nejrychlejší obnovení služby. Tento proces musí mít jediný cíl: umožnit uživateli používat službu co nejrychleji. Je proto třeba se vyhnout konečné opravě, protože to trvá mnohem déle. Tento proces by proto měl zavést řešení problému.

Cluster s vysokou dostupností

Vysoké dostupnosti clusteru (na rozdíl od Cluster Computing) je shluk počítačů, jejichž cílem je poskytovat služby, přičemž se zabrání výpadky v co největší míře.

Zde je neúplný seznam klastrovacích aplikací pro UNIX (běžících na AIX , HP-UX , Linux nebo Solaris):

Osvědčení

Existují certifikační orgány, jako je Uptime Institute (někdy nazývané „The Global Data Center Authority“ ), které definovaly klasifikace v oblasti datových center a rozlišují čtyři typy „třetích stran“, stejně jako kritéria odolnosti .

Podívejte se také

Související články

externí odkazy

Poznámky a odkazy

  1. „  silicon.fr  “ (zpřístupněno 9. prosince 2010 )
  2. „  Journaldunet  “ (přístup 9. prosince 2010 )
  3. Pro tento výpočet se používá období 30 dnů.
  4. (en) Alteon WebSystems
  5. http://www.uptimeinstitute.com/professional-services/professional-services-tier-certification „Archivovaná kopie“ (verze 23. července 2018 v internetovém archivu )