Przywracanie RAID po błędach zapisu
Mimo zaawansowanych zabezpieczeń sprzętowych i softwarowych oprócz typowych awarii RAIDu , w serwerach zdarzają się również inne, rzadsze, ale nie mniej groźne problemy. Podczas normalnej pracy macierzy mogą pojawiać się w danych błędy, które nie pozwalają na prawidłowy do nich dostęp. Spowodowane są one najczęściej uszkodzonymi sektorami o wydłużonym czasie dostępu bądź tzw cichą degradacją (niszczeniem danych)
Przyczyną błędów danych na serwerach RAID mogą być:
– błędy kontrolerów
– błędy sterowników
– błędy wewnętrznego oprogramowania
– a w końcu wewnętrzne błędy dysków
Większość błędów jest korygowanych przez oprogramowanie wewnętrzne dysków, ale nie wszystkie – niektóre błędy nie zostają skorygowane. Nie wykryte również przez zewnętrzne kontrolery dyskowe są powielane i replikowane, kopiowane do kopii zapasowej.. Problem dopiero zaczyna urastać do wielkiej wagi, kiedy dane na dyskach są na tyle uszkodzone, że nie można z nich skorzystać.
Dawniej nikt nie mówił o „cichym niszczeniu danych” bo nie było problemem. Nie było, ponieważ dyski nie miały tak olbrzymich pojemności , a macierze były dość powolne. Błędy tego typu pojawiały się na tyle rzadko, że nie wywoływało to problemów w dostępie do danych. W związku z tym nikt nie podejmował żadnych działań zaradczych.
Współczesne systemy RAID, to serwery z rozbudowanym sprzętowym kontrolerem RAID. W związku z tym – z punktu widzenia systemów operacyjnych komputerów w sieci, wolumin dyskowy zarządzany jest przez zewnętrzne urządzenie- kontroler RAID, w związku z czym system nie odpowiada już za redundancję danych na wszystkich dyskach. W takim przypadku za niezmienność danych odpowiada kontroler RAID, który nie zawsze jest przygotowany do ochrony przed niewykrywalnymi zmianami sektorów na dysku.
W przypadku serwera RAID Warto pamiętać o tym, że w przypadku nieskorygowanych przez kontroler błędów, będą one propagowane na wszystkie dyski macierzy.
Właśnie ze względu na powyższe problemy, w nowoczesnych serwerach RAID kładzie się już szczególny nacisk na korekcję błędów danych. Nie jest to już zagadnienie pomijane, a wręcz traktowane jako jedno z priorytetowych podczas pracy z systemami RAID. Stosuje się zatem różne metody ochrony danych – przywraca się uszkodzone dane z pozostałych dysków macierzy, bądź stosuje się tzw RAID-Z.
Jest do zmodyfikowany RAID 5 , do którego podłącza się dodatkowy dysk parzystości odpowiedzialny za korekcję błędów. W bardziej rozbudowanych macierzach stosuje się nawet RAID-Z3 (czyli nawet trzy dodatkowe dyski odpowiedzialne za korekcję).
Odzyskiwanie zniszczonych danych
W przypadku błędów w integralności danych i braku do nich dostępu, odzysk może polegać na odczycie danych z dysku w trybie serwisowym. Wykorzystując specjalne kontrolery, można odczytać powierzchnię talerzy wraz z błędnymi sektorami, następnie w trybie serwisowym spróbować je odczytać – i w ten sposób uzyskać dostęp do uszkodzonych danych. Trzeba w tym miejscu nadmienić, że w przypadku cichego uszkodzenia danych, może nie pomóc nawet kopia zapasowa, gdyż może ona zawierać również uszkodzone dane.
Niektórzy specjaliści twierdzą, że w przypadku dysków SATA kontrola błędów danych powinna być przeprowadzana co tydzień, a w przypadku dysków Enterprise przynajmniej raz w miesiącu.
Jak widać ciche niszczenie danych, w obecnych serwerach RAID jest poważnym problemem i żeby zapobiec utracie dostępu do danych trzeba zadbać, by jakiekolwiek błędy danych były natychmiast naprawiane. O ile nie mamy wpływu na kontroler dysku, to kontrolery serwerowe już mają taką możliwość. Z czego zalecamy korzystać.
Źródła:
https://centrumodzyskiwaniadanych.pl/uslugi/nas