Vysoká dostupnost

Vysoká dostupnost nebo vysoké dostupnosti ( HA ) je termín často používán v počítači , informace o architektuře systému nebo službu k označení skutečnosti, že tato architektura nebo služba má Míra dostupnosti vhodného.

Dostupnost je dnes důležitou otázkou pro IT infrastruktury. Studie z roku 2007 odhaduje, že nedostupnost IT služeb může mít cenu 440 000 eur za hodinu, což představuje celonárodní miliardy eur. Nedostupnost služeb IT je v průmyslu obzvláště kritická, zejména v případě zastavení výrobní linky.

Ke zlepšení dostupnosti se používají dva doplňkové prostředky:

vytvoření specializované hardwarové infrastruktury, obvykle založené na redundanci hardwaru. Poté se vytvoří cluster s vysokou dostupností (na rozdíl od výpočetního clusteru): cluster počítačů, jehož účelem je poskytovat službu a přitom se co nejvíce vyhnout prostojům;
implementace příslušných procesů ke snížení chyb a zrychlení obnovy v případě chyby. ITIL obsahuje mnoho takových procesů.

Měření míry dostupnosti

Dostupnost se často měří v procentech:

Dostupnost v%	Nedostupnost za rok	Nedostupnost za měsíc	Nedostupnost za týden
90% („nový“)	36,5 dne	72 hodin	16,8 hodin
95%	18,25 dnů	36 hodin	8,4 hodiny
98%	7,30 dnů	14,4 hodiny	3,36 hodiny
99% („two nines“)	3,65 dne	7,20 hodin	1,68 hodiny
99,5%	1,83 dne	3,60 hodiny	50,4 minuty
99,8%	17,52 hodiny	86,23 minut	20,16 minuty
99,9% („tři devítky“)	8,76 hodin	43,2 minut	10,1 minuty
99,95%	4,38 hodiny	21,56 minuty	5,04 minuty
99,99% („čtyři devítky“)	52,56 minuty	4,32 minuty	1,01 minuty
99,999% („pět devíti“)	5,26 minuty	25,9 sekundy	6,05 sekundy
99,9999% („šest devíti“)	31,5 sekundy	2,59 sekundy	0,605 sekundy

Vysoká dostupnost je často mylně zaměňována s plánem obnovy po katastrofě . Jedná se o dva různé doplňkové úkoly k dosažení nepřetržité dostupnosti .

Techniky ke zlepšení dostupnosti

Ke zlepšení dostupnosti se používá mnoho technik:

redundance hardwaru a nastavení clusteru ;
zabezpečení dat: RAID , snímky , Oracle Data Guard (en) , BCV (Business Copy Volume), SRDF (Symmetrix Remote Data Facility) , DRBD ;
možnost překonfigurovat server na „horký“ (tj. když je spuštěný);
zhoršený režim nebo panický režim ;
záložní plán ;
a zabezpečení záloh: outsourcing, centralizace na webech třetích stran.

Vysoká dostupnost nejčastěji vyžaduje vhodnou místnost: stabilizovaný napájecí zdroj, klimatizace na podlaze, s filtrem pevných částic, údržba, bezpečnostní služba a zabezpečení proti zákeřným záměrům a krádeži. Věnujte také pozornost riziku požáru a poškození vodou. Napájecí a komunikační kabely musí být vícenásobné a zakopané. Neměli by vyčnívat do podzemního parkoviště budovy, které je v pařížských budovách příliš často vidět. Tato kritéria jsou první, která se berou v úvahu při výběru poskytovatele ubytování (případ pronájmu pokoje s vysokou dostupností).

Pro každou úroveň architektury, pro každou komponentu, každé propojení mezi komponentami je nutné stanovit:

Jak zjistit poruchu? Příklady: Testy životnosti TCP Health Check implementované Alteon boxem, testovací program periodicky volaný („ prezenční signál “), „diagnostické“ rozhraní typu na komponentách atd.
Jak je součást zabezpečena, nadbytečná, zálohována… Příklady: pohotovostní server, systémový klastr, klastrování Websphere , úložiště RAID, zálohy, dvojitá příloha SAN, degradovaný režim, volný nepoužívaný hardware (náhradní) připravený k opětovné instalaci.
Jak chcete zapnout přepínač v nouzovém / zhoršeném režimu. Ručně po analýze? Automaticky?
Jak zajistit, aby se nouzový systém vrátil do stabilního a známého stavu. Příklady: vycházíme z kopie databáze a znovu použijeme protokoly archivů, opětovné spuštění dávek ze známého stavu, dvoufázové potvrzení transakcí s aktualizací několika datových vkladů ...
Jak se aplikace restartuje na záložním mechanismu. Příklady: restartování aplikace, restartování přerušených dávek, aktivace zhoršeného režimu, obnovení IP adresy selhávajícího serveru záložním serverem atd.
Jak obnovit probíhající transakce nebo relace. Příklady: vytrvalost relace na aplikačním serveru, mechanismus k zajištění odpovědi klientovi na transakci, která byla provedena správně před selháním, ale na kterou klient neobdržel odpověď atd.
Jak se vrátit do nominální situace. Příklady:
- pokud degradovaný režim umožňuje v případě selhání databáze uložit nevyřízené transakce do souboru, jak se transakce znovu použijí, když se databáze stane znovu aktivní.
- pokud byla vadná součást deaktivována, jak je znovu uvedena do aktivní služby (třeba například resynchronizovat data, znovu otestovat součást atd.)

Závislost na jiných aplikacích

U aplikace, která používá jiné aplikace s middlewarem v synchronním režimu ( webová služba v http , Tuxedo , Corba , EJB ), bude míra dostupnosti aplikace silně spojena s dostupností aplikací, na kterých závisí. Citlivost aplikací, na kterých jsme závislí, proto musí být ekvivalentní nebo větší než citlivost samotné aplikace.

Jinak zvažte

použití asynchronního middlewaru: MQ Series , JMS, SonicMQ , CFT
implementace zhoršeného režimu, když je vadná aplikace, na které závisí.

Z tohoto důvodu budeme upřednostňovat použití asynchronního middlewaru, abychom upřednostňovali dobrou dostupnost, pokud je to možné.

Rozložení zátěže a citlivost

Citlivost je často řízena redundantními prvky s mechanismem vyrovnávání zatížení. (například cluster Websphere s Alteonem pro vyrovnávání zatížení). Aby tento systém poskytoval skutečný zisk z hlediska spolehlivosti, je nutné ověřit, že pokud je některý z prvků vadný, zbývající prvky mají dostatečný výkon k zajištění služby.

Jinými slovy, v případě dvou aktivních serverů s vyrovnáváním zátěže musí být výkon jediného serveru schopen zajistit celkovou zátěž. U tří serverů by výkon jednoho serveru měl poskytovat 50% zátěže (za předpokladu, že pravděpodobnost selhání na dvou serverech současně je zanedbatelná).

Aby byla zajištěna dobrá dostupnost, není nutné dávat velké množství serverů, které si navzájem pomáhají. Například 99% dostupný prvek, který je jednou nadbytečný, poskytuje 99,99% dostupnost (pravděpodobnost, že oba prvky selžou současně = 1 / 100x1 / 100 = 1/10000).

Diferenční redundance

Redundance prvku se obvykle provádí výběrem redundance s několika identickými komponentami. To předpokládá, že je efektivní, že porucha jedné ze složek je náhodná a nezávislá na selhání jedné z ostatních složek. To je například případ selhání hardwaru.

To neplatí pro všechny poruchy: například může dojít k poruše v operačním systému nebo anomálii softwarové součásti, pokud jsou podmínky příznivé, na všech součástech současně. Z tohoto důvodu, když je aplikace extrémně citlivá, budeme uvažovat o nadbytečných prvcích s komponentami různé povahy, ale poskytujících stejné funkce. To může vést k:

vybrat servery různé povahy, s různými operačními systémy, různými softwarovými produkty infrastruktury;
vyvinout stejnou komponentu dvakrát, vždy při respektování kontraktů rozhraní, které se na komponentu vztahují.

Redundance s hlasovacím systémem

V tomto režimu různé komponenty zpracovávají stejné vstupy, a proto (v zásadě) produkují stejné výstupy.

Výsledky produkované všemi komponentami jsou shromážděny a poté je implementován algoritmus k vytvoření konečného výsledku. Algoritmus může být jednoduchý (hlasování většinou) nebo složitý (průměr, vážený průměr , medián atd.), Jehož cílem je eliminovat chybné výsledky, které lze přičíst nesprávné funkci jedné ze složek, nebo zvýšit spolehlivost součásti. kombinací několika mírně odlišných výsledků.

Tento proces :

neumožňuje vyvažování zátěže ;
zavádí problém spolehlivosti komponenty spravující hlasovací algoritmus.

Tento proces se obvykle používá v následujících případech

Systémy založené na senzorech (příklad: teplotní senzory), pro které jsou senzory nadbytečné
Používají se systémy nebo několik různých komponent vykonávajících stejnou funkci (srov. Diferenciální redundance) a pro které lze dosáhnout lepšího konečného výsledku kombinací výsledků produkovaných komponentami (příklad: systém rozpoznávání vzorů využívající několik algoritmů k získání lepší rychlosti rozpoznávání .

"Stínové operace"

Pokud redundantní součást nefunguje správně a po opravě ji možná budete chtít znovu zavést do aktivní služby, ověřit, zda skutečně funguje správně, ale bez použití výsledků. V tomto případě jsou vstupy zpracovávány jednou (nebo více) považovanými za spolehlivé komponenty. Ty produkují výsledek využívaný zbytkem systému. Stejné položky zpracovává také znovuzavedená součást, o které se říká, že je v „stínovém“ režimu. Správné fungování součásti lze ověřit porovnáním získaných výsledků s výsledky spolehlivých součástí. Tento proces se často používá v systémech založených na hlasování, protože stačí vyloučit složku v „stínovém“ režimu z konečného hlasování.

Procesy, které pomáhají zlepšit provozuschopnost

V těchto procesech můžeme rozlišit dvě role.

Procesy, které snižují počet výpadků

Na základě předpokladu, že prevence je lepší než léčba , zavedení kontrolních procesů, které sníží počet incidentů v systému, zlepšuje dostupnost. Tuto roli umožňují hrát dva procesy:

Proces správy změn: 60% chyb souvisí s nedávnou změnou. Nastavením formalizovaného procesu doprovázeného dostatečným testováním (a prováděným ve správném předprodukčním prostředí) lze eliminovat mnoho incidentů.
Proaktivní proces správy chyb: incidenty lze často detekovat dříve, než k nim dojde: doba odezvy se prodlouží ... Proces přiřazený k tomuto úkolu a vybavený příslušnými nástroji (měření, systém hlášení atd.) Může zasáhnout ještě dříve, než došlo k incidentu.

Implementací těchto dvou procesů lze zabránit mnoha incidentům.

Procesy snižující dobu odstávek

K poruchám dochází vždy. V tomto okamžiku je proces obnovení v případě chyby zásadní, aby bylo zajištěno co nejrychlejší obnovení služby. Tento proces musí mít jediný cíl: umožnit uživateli používat službu co nejrychleji. Je proto třeba se vyhnout konečné opravě, protože to trvá mnohem déle. Tento proces by proto měl zavést řešení problému.

Cluster s vysokou dostupností

Vysoké dostupnosti clusteru (na rozdíl od Cluster Computing) je shluk počítačů, jejichž cílem je poskytovat služby, přičemž se zabrání výpadky v co největší míře.

Zde je neúplný seznam klastrovacích aplikací pro UNIX (běžících na AIX , HP-UX , Linux nebo Solaris):

Evidian SafeKit (vyvažování zátěže, replikace v reálném čase a převzetí služeb při selhání)
HP MC / ServiceGuard pro HP-UX
IBM HACMP
Bull Roll-over Facility
Clusterový server Symantec Veritas
Open Source Linux Pacemaker (software)
OpenSVC (bezplatný svobodný software)
Cluster Oracle Solaris (dříve SUN Cluster)

Osvědčení

Existují certifikační orgány, jako je Uptime Institute (někdy nazývané „The Global Data Center Authority“ ), které definovaly klasifikace v oblasti datových center a rozlišují čtyři typy „třetích stran“, stejně jako kritéria odolnosti .

Podívejte se také

Související články

externí odkazy

Poznámky a odkazy

„ silicon.fr “ (zpřístupněno 9. prosince 2010 )
„ Journaldunet “ (přístup 9. prosince 2010 )
Pro tento výpočet se používá období 30 dnů.
(en) Alteon WebSystems
http://www.uptimeinstitute.com/professional-services/professional-services-tier-certification „Archivovaná kopie“ (verze 23. července 2018 v internetovém archivu )