Sprint Data Center • ul. Jagiellończyka 26, 10-062 Olsztyn
+48 89 522 12 20
info@sprintdatacenter.pl

Architektura High Availability oparta na dwóch serwerach dedykowanych – jak zapewnić 99,99% ciągłości działania biznesu?

blog informacyjny dla użytkowników usług SDC

Created with Sketch.

Architektura High Availability na serwerach dedykowanych

W świecie biznesu online stała dostępność systemów to absolutny priorytet. Architektura High Availability (HA), wykorzystująca dwa serwery dedykowane, pozwala osiągnąć dostępność na imponującym poziomie aż 99,99%, a to w ogromnym stopniu minimalizuje ryzyko przestojów. W artykule znajdziesz wskazówki, jak poprawnie ją skonfigurować. Dowiesz się z niego także, dlaczego jej stosowanie przyczynia się do budowania zaufania użytkowników oraz jakie znaczenie mają umowy SLA w kontekście dostępności systemów online.

Spis treści:

Klaster HA na 2 węzłach – active-passive vs. active-active oraz mechanizmy failover/failback

Wybierając pomiędzy architekturą HA w trybie active-passive a active-active, musisz zdecydować, jak zapewnić najwyższą dostępność opartą na dwóch serwerach. W pierwszym modelu jeden serwer dedykowany działa i obsługuje cały ruch, podczas gdy drugi czeka w pogotowiu, gotowy do działania w razie awarii. To rozwiązanie jest prostsze do wdrożenia, lecz oznacza, że zasoby zapasowego urządzenia nie są wykorzystywane aż do momentu przełączenia systemu na niego. Failover w active-passive automatycznie przekierowuje obciążenie na zapasową maszynę w razie problemów. Kiedy serwer podstawowy „wstanie”, następuje failback, czyli powrót do pierwotnej konfiguracji (chyba że polityka systemu stanowi inaczej).

W modelu active-active oba serwery dedykowane pracują jednocześnie. Rozwiązanie to podnosi wydajność i efektywność działania systemu. Jednak istotne jest tutaj posiadanie skutecznego mechanizmu synchronizacji, by dane przesyłane między urządzeniami były zgodne. Chociaż równoważenie obciążenia jest bardziej złożone i istnieje ryzyko konfliktów danych, ta forma architektury HA może znacznie poprawić dostępność i wydajność systemu, jeśli działa poprawnie.

Strategie replikacji danych – spójność, RPO i RTO

Replikacja danych to istotny element dla systemów mających działać z wysoką dostępnością. Skupia się na utrzymaniu spójności danych i uwzględnia parametry, takie jak RPO (Recovery Point Objective) i RTO (Recovery Time Objective). Te dwa parametry określają, ile informacji można stracić, bez znaczącego wpływu na funkcjonowanie firmy oraz jak szybko system powinien wrócić do pracy po awarii. Nowe technologie, jak Ceph czy specjalistyczne macierze dyskowe, wspierają zarówno synchroniczną, jak i asynchroniczną replikację. Dzięki nim można lepiej dostosować strategie do konkretnych potrzeb organizacji.

Replikacja synchroniczna a asynchroniczna w praktyce

Replikacja synchroniczna sprawia, że każda transakcja jest zapisywana równocześnie na obu serwerach dedykowanych. Zapewnia więc pełną spójność danych. W tym modelu RPO jest niemal zerowe, a to bardzo istotne w razie awarii. Jednak trzeba pamiętać, że taka synchronizacja może wpływać na wydajność systemu, zwłaszcza gdy serwery znajdują się daleko od siebie – może spowalniać przepływ danych. Dlatego w sytuacjach, gdzie wymagana jest natychmiastowość w reakcji systemu lub gdy trzeba obsłużyć dużo informacji w jednym czasie, należy dobrze przemyśleć, czy rozwiązanie to będzie odpowiednie.

Z kolei replikacja asynchroniczna umożliwia szybkie zapisanie danych na głównym serwerze dedykowanym. Ich kopia trafi na drugą maszynę i, co bardzo istotne, może pojawić się tam z lekkim opóźnieniem. To rozwiązanie przynosi korzyści szczególnie w rozproszonych infrastrukturach serwerowych, ponieważ nie obciąża systemu koniecznością natychmiastowej synchronizacji danych. Wadą jest za to spore ryzyko utraty ostatnich zapisów – w tym modelu RPO jest wyższe niż przy replikacji synchronicznej.

Dlatego wybierając między tymi rozwiązaniami, warto wziąć pod uwagę kilka czynników:

  • jak ważne są dane dla firmy,
  • jakie są wymagania w zakresie czasu odzyskiwania systemu po awarii,
  • jak wygląda architektura sieciowa,
  • jaką wydajność systemu chcemy utrzymać,
  • jak duże ryzyko utraty danych jesteśmy w stanie zaakceptować.

Sieć i równoważenie obciążenia – VIP, DNS i redundancja

Technologie te są kluczem do tego, by systemy w architekturze High Availability działały bez zakłóceń. VIP (Virtual IP) odgrywa tu ważną rolę, bo ułatwia przekierowanie ruchu bez konieczności łączenia się z konkretnym fizycznym serwerem dedykowanym. Jeśli wystąpi jakaś awaria, nastąpi automatyczne przełączenie na urządzenie zapasowe i utrzymana zostanie stabilność działania usługi. DNS bardzo tu pomaga, gdyż błyskawicznie lokalizuje dostępne serwery. Dodatkowo dzięki zastosowaniu redundancji, ryzyko przerw w pracy systemu jest zminimalizowane niemal do zera.

Routowanie ruchu, propagacja zmian oraz redundancja łączy

Routowanie ruchu w architekturze HA odgrywa ważną rolę w zapewnieniu, że użytkownicy zawsze trafią na dostępne serwery. Load balancery przekierowują zapytania do aktywnych urządzeń, zwiększając płynność działania systemu. Technologie takie jak Virtual IP (VIP) dynamicznie reagują na awarie.

Propagacja zmian DNS jest szczególnie ważna, gdy trzeba szybko przełączyć się między serwerami. Zmiany muszą być wprowadzane błyskawicznie, żeby uniknąć opóźnień i zapewnić ciągłość usług online. Dobrze skonfigurowane protokoły routingu synchronizują sieci, gwarantując, że nowe ustawienia są natychmiast widoczne.

Redundancja łączy to kolejny istotny aspekt zwiększający odporność systemu. Polega na korzystaniu z co najmniej dwóch niezależnych połączeń sieciowych. Dzięki temu, gdy jedno z nich zawodzi, inne może przejąć jego funkcję, nie zakłócając działania całości. Dzięki tym wszystkim mechanizmom architektura HA staje się bardziej stabilna, a usługi działają nieprzerwanie.

Quorum i ochrona przed split-brain

Quorum jest podstawowym mechanizmem w systemach z dwoma węzłami, który chroni je przed problemem określanym jako tzw. split-brain. Określa on sytuację, kiedy oba serwery dedykowane przestają się ze sobą komunikować i każdy uważa się za jedyny aktywny. Może to prowadzić do konfliktów oraz uszkodzeń danych.

Quorum definiuje najniższą liczbę węzłów wymaganą do podejmowania decyzji, a to bywa kłopotliwe w systemach z parą węzłów, ponieważ obydwa mają równoważny głos. Aby skutecznie poradzić sobie z tym problemem, wprowadza się trzeci komponent – tzw. węzeł świadek lub arbiter. To on decyduje, jaki serwer pozostaje aktywny, gdy nie ma komunikacji pomiędzy głównymi węzłami. Dzięki jego obecności można utrzymać quorum i zapobiec wystąpieniu split-brain.

Pamiętaj jednak, że skuteczna konfiguracja quorum wymaga odpowiedniego ustawienia serwerów dedykowanych i zarządzającego nimi arbitra. Dzięki temu nawet, jeśli komunikacja pomiędzy urządzeniami zostanie przerwana, architektura HA będzie dalej działać.

Monitoring i walidacja ciągłości działania

Monitorowanie i dbanie o ciągłość działania systemów IT są niezbędne, by zachować ich niezawodność. Dzięki ciągłemu śledzeniu serwerów dedykowanych, usług i połączeń sieciowych łatwiej wychwycić potencjalne problemy i zminimalizować przestoje. Pomagają w tym zaawansowane narzędzia, które dostarczają informacji o metrykach i logach, wspierając zarządzanie serwerami.

W zarządzaniu szczególnie ważne są:

  • regularne testy przełączenia awaryjnego,
  • symulacje awarii,
  • systemy powiadomień usług.

Alerty z usług oraz procedury testowania przełączeń

Alerty z usług to podstawa skutecznego monitorowania w architekturze High Availability. Dzięki nim szybko zidentyfikujesz i zgłosisz problemy, a to przyspieszy reakcję zespołów IT odpowiedzialnych za utrzymanie serwerów dedykowanych.

Powiadomienia mogą dotyczyć na przykład:

  • braku dostępności usług,
  • błędów replikacji,
  • zmian w statusie węzłów.

Dokładnie sprecyzowane reguły wysyłania alertów zmniejszają liczbę fałszywych alarmów, skupiając się na naprawdę istotnych incydentach.

Do tego dochodzi testowanie przełączeń jak symulacje awarii (failover). Jest konieczne, by sprawdzić działanie mechanizmów architektury HA. Testy te polegają na kontrolowanej symulacji awarii głównego serwera, by upewnić się, czy system automatycznie przekieruje zadania na zapasowy serwer, nie przerywając pracy użytkowników.

Jednocześnie pamiętaj, że ciągłość działania usług w tej architekturze w dużej mierze uzależniona jest także od jakości stosowanych maszyn. Dlatego szukając serwerów dedykowanych do uruchomienia w klastrze HA, postaw na rozwiązania od sprawdzonego dostawcy – skorzystaj z oferty Sprint Data Center. Jako polskie data centrum mamy ogromne doświadczenie w branży, proponując wyłącznie najlepsze urządzenia. Pomożemy Ci w ich wyborze oraz skonfigurowaniu pod kątem potrzeb konkretnej aplikacji – zapraszamy do kontaktu!