Przywracanie RAID po błędach zapisu

Mimo zaawansowanych zabezpieczeń sprzętowych i softwarowych oprócz typowych awarii RAIDu , w serwerach zdarzają się również inne, rzadsze, ale nie mniej groźne problemy. Podczas normalnej pracy macierzy mogą pojawiać się w danych błędy, które nie pozwalają na prawidłowy do nich dostęp. Spowodowane są one najczęściej uszkodzonymi sektorami o wydłużonym czasie dostępu bądź tzw cichą degradacją (niszczeniem danych)

Przyczyną błędów danych na serwerach RAID mogą być:

– błędy kontrolerów

– błędy sterowników

– błędy wewnętrznego oprogramowania

– a w końcu wewnętrzne błędy dysków

Większość błędów jest korygowanych przez oprogramowanie wewnętrzne dysków, ale nie wszystkie – niektóre błędy nie zostają skorygowane. Nie wykryte również przez zewnętrzne kontrolery dyskowe są powielane i replikowane, kopiowane do kopii zapasowej.. Problem dopiero zaczyna urastać do wielkiej wagi, kiedy dane na dyskach są na tyle uszkodzone, że nie można z nich skorzystać.

Dawniej nikt nie mówił o „cichym niszczeniu danych” bo nie było problemem. Nie było, ponieważ dyski nie miały tak olbrzymich pojemności , a macierze były dość powolne. Błędy tego typu pojawiały się na tyle rzadko, że nie wywoływało to problemów w dostępie do danych. W związku z tym nikt nie podejmował żadnych działań zaradczych.

Współczesne systemy RAID, to serwery z rozbudowanym sprzętowym kontrolerem RAID. W związku z tym – z punktu widzenia systemów operacyjnych komputerów w sieci, wolumin dyskowy zarządzany jest przez zewnętrzne urządzenie- kontroler RAID, w związku z czym system nie odpowiada już za redundancję danych na wszystkich dyskach. W takim przypadku za niezmienność danych odpowiada kontroler RAID, który nie zawsze jest przygotowany do ochrony przed niewykrywalnymi zmianami sektorów na dysku.

W przypadku serwera RAID Warto pamiętać o tym, że w przypadku nieskorygowanych przez kontroler błędów, będą one propagowane na wszystkie dyski macierzy.

Właśnie ze względu na powyższe problemy, w nowoczesnych serwerach RAID kładzie się już szczególny nacisk na korekcję błędów danych. Nie jest to już zagadnienie pomijane, a wręcz traktowane jako jedno z priorytetowych podczas pracy z systemami RAID. Stosuje się zatem różne metody ochrony danych –  przywraca się uszkodzone dane z pozostałych dysków macierzy, bądź stosuje się tzw RAID-Z.

Jest do zmodyfikowany RAID 5 , do którego podłącza się dodatkowy dysk parzystości odpowiedzialny za korekcję błędów. W bardziej rozbudowanych macierzach stosuje się nawet RAID-Z3 (czyli nawet trzy dodatkowe dyski odpowiedzialne za korekcję).

Odzyskiwanie zniszczonych danych

W przypadku błędów w integralności danych i braku do nich dostępu, odzysk może polegać na odczycie danych z dysku w trybie serwisowym. Wykorzystując specjalne kontrolery, można odczytać powierzchnię talerzy wraz z błędnymi sektorami, następnie w trybie serwisowym spróbować je odczytać –  i w ten sposób uzyskać dostęp do uszkodzonych danych. Trzeba w tym miejscu nadmienić, że w przypadku cichego uszkodzenia danych, może nie pomóc nawet kopia zapasowa, gdyż może ona zawierać również uszkodzone dane.

Niektórzy specjaliści twierdzą, że w przypadku dysków SATA kontrola błędów danych powinna być przeprowadzana co tydzień, a w przypadku dysków Enterprise przynajmniej raz w miesiącu.

Jak widać ciche niszczenie danych, w obecnych serwerach RAID jest poważnym problemem i żeby zapobiec utracie dostępu do danych trzeba zadbać, by jakiekolwiek błędy danych były natychmiast naprawiane. O ile nie mamy wpływu na kontroler dysku, to kontrolery serwerowe już mają taką możliwość. Z czego zalecamy korzystać.

Źródła:

https://od24h.pl/serwis/nas

https://centrumodzyskiwaniadanych.pl/uslugi/nas