Vysoká dostupnost nebo vysoké dostupnosti ( HA ) je termín často používán v počítači , informace o architektuře systému nebo službu k označení skutečnosti, že tato architektura nebo služba má Míra dostupnosti vhodného.
Dostupnost je dnes důležitou otázkou pro IT infrastruktury. Studie z roku 2007 odhaduje, že nedostupnost IT služeb může mít cenu 440 000 eur za hodinu, což představuje celonárodní miliardy eur. Nedostupnost služeb IT je v průmyslu obzvláště kritická, zejména v případě zastavení výrobní linky.
Ke zlepšení dostupnosti se používají dva doplňkové prostředky:
Dostupnost se často měří v procentech:
Dostupnost v% | Nedostupnost za rok | Nedostupnost za měsíc | Nedostupnost za týden |
---|---|---|---|
90% („nový“) | 36,5 dne | 72 hodin | 16,8 hodin |
95% | 18,25 dnů | 36 hodin | 8,4 hodiny |
98% | 7,30 dnů | 14,4 hodiny | 3,36 hodiny |
99% („two nines“) | 3,65 dne | 7,20 hodin | 1,68 hodiny |
99,5% | 1,83 dne | 3,60 hodiny | 50,4 minuty |
99,8% | 17,52 hodiny | 86,23 minut | 20,16 minuty |
99,9% („tři devítky“) | 8,76 hodin | 43,2 minut | 10,1 minuty |
99,95% | 4,38 hodiny | 21,56 minuty | 5,04 minuty |
99,99% („čtyři devítky“) | 52,56 minuty | 4,32 minuty | 1,01 minuty |
99,999% („pět devíti“) | 5,26 minuty | 25,9 sekundy | 6,05 sekundy |
99,9999% („šest devíti“) | 31,5 sekundy | 2,59 sekundy | 0,605 sekundy |
Vysoká dostupnost je často mylně zaměňována s plánem obnovy po katastrofě . Jedná se o dva různé doplňkové úkoly k dosažení nepřetržité dostupnosti .
Ke zlepšení dostupnosti se používá mnoho technik:
Vysoká dostupnost nejčastěji vyžaduje vhodnou místnost: stabilizovaný napájecí zdroj, klimatizace na podlaze, s filtrem pevných částic, údržba, bezpečnostní služba a zabezpečení proti zákeřným záměrům a krádeži. Věnujte také pozornost riziku požáru a poškození vodou. Napájecí a komunikační kabely musí být vícenásobné a zakopané. Neměli by vyčnívat do podzemního parkoviště budovy, které je v pařížských budovách příliš často vidět. Tato kritéria jsou první, která se berou v úvahu při výběru poskytovatele ubytování (případ pronájmu pokoje s vysokou dostupností).
Pro každou úroveň architektury, pro každou komponentu, každé propojení mezi komponentami je nutné stanovit:
U aplikace, která používá jiné aplikace s middlewarem v synchronním režimu ( webová služba v http , Tuxedo , Corba , EJB ), bude míra dostupnosti aplikace silně spojena s dostupností aplikací, na kterých závisí. Citlivost aplikací, na kterých jsme závislí, proto musí být ekvivalentní nebo větší než citlivost samotné aplikace.
Jinak zvažte
Z tohoto důvodu budeme upřednostňovat použití asynchronního middlewaru, abychom upřednostňovali dobrou dostupnost, pokud je to možné.
Citlivost je často řízena redundantními prvky s mechanismem vyrovnávání zatížení. (například cluster Websphere s Alteonem pro vyrovnávání zatížení). Aby tento systém poskytoval skutečný zisk z hlediska spolehlivosti, je nutné ověřit, že pokud je některý z prvků vadný, zbývající prvky mají dostatečný výkon k zajištění služby.
Jinými slovy, v případě dvou aktivních serverů s vyrovnáváním zátěže musí být výkon jediného serveru schopen zajistit celkovou zátěž. U tří serverů by výkon jednoho serveru měl poskytovat 50% zátěže (za předpokladu, že pravděpodobnost selhání na dvou serverech současně je zanedbatelná).
Aby byla zajištěna dobrá dostupnost, není nutné dávat velké množství serverů, které si navzájem pomáhají. Například 99% dostupný prvek, který je jednou nadbytečný, poskytuje 99,99% dostupnost (pravděpodobnost, že oba prvky selžou současně = 1 / 100x1 / 100 = 1/10000).
Redundance prvku se obvykle provádí výběrem redundance s několika identickými komponentami. To předpokládá, že je efektivní, že porucha jedné ze složek je náhodná a nezávislá na selhání jedné z ostatních složek. To je například případ selhání hardwaru.
To neplatí pro všechny poruchy: například může dojít k poruše v operačním systému nebo anomálii softwarové součásti, pokud jsou podmínky příznivé, na všech součástech současně. Z tohoto důvodu, když je aplikace extrémně citlivá, budeme uvažovat o nadbytečných prvcích s komponentami různé povahy, ale poskytujících stejné funkce. To může vést k:
V tomto režimu různé komponenty zpracovávají stejné vstupy, a proto (v zásadě) produkují stejné výstupy.
Výsledky produkované všemi komponentami jsou shromážděny a poté je implementován algoritmus k vytvoření konečného výsledku. Algoritmus může být jednoduchý (hlasování většinou) nebo složitý (průměr, vážený průměr , medián atd.), Jehož cílem je eliminovat chybné výsledky, které lze přičíst nesprávné funkci jedné ze složek, nebo zvýšit spolehlivost součásti. kombinací několika mírně odlišných výsledků.
Tento proces :
Tento proces se obvykle používá v následujících případech
Pokud redundantní součást nefunguje správně a po opravě ji možná budete chtít znovu zavést do aktivní služby, ověřit, zda skutečně funguje správně, ale bez použití výsledků. V tomto případě jsou vstupy zpracovávány jednou (nebo více) považovanými za spolehlivé komponenty. Ty produkují výsledek využívaný zbytkem systému. Stejné položky zpracovává také znovuzavedená součást, o které se říká, že je v „stínovém“ režimu. Správné fungování součásti lze ověřit porovnáním získaných výsledků s výsledky spolehlivých součástí. Tento proces se často používá v systémech založených na hlasování, protože stačí vyloučit složku v „stínovém“ režimu z konečného hlasování.
V těchto procesech můžeme rozlišit dvě role.
Na základě předpokladu, že prevence je lepší než léčba , zavedení kontrolních procesů, které sníží počet incidentů v systému, zlepšuje dostupnost. Tuto roli umožňují hrát dva procesy:
Implementací těchto dvou procesů lze zabránit mnoha incidentům.
K poruchám dochází vždy. V tomto okamžiku je proces obnovení v případě chyby zásadní, aby bylo zajištěno co nejrychlejší obnovení služby. Tento proces musí mít jediný cíl: umožnit uživateli používat službu co nejrychleji. Je proto třeba se vyhnout konečné opravě, protože to trvá mnohem déle. Tento proces by proto měl zavést řešení problému.
Vysoké dostupnosti clusteru (na rozdíl od Cluster Computing) je shluk počítačů, jejichž cílem je poskytovat služby, přičemž se zabrání výpadky v co největší míře.
Zde je neúplný seznam klastrovacích aplikací pro UNIX (běžících na AIX , HP-UX , Linux nebo Solaris):
Existují certifikační orgány, jako je Uptime Institute (někdy nazývané „The Global Data Center Authority“ ), které definovaly klasifikace v oblasti datových center a rozlišují čtyři typy „třetích stran“, stejně jako kritéria odolnosti .