Merevlemez-kezelő intelligens eszközökkel


a merevlemezek vezérlése a SMART használatával

Az egyik merevlemezed valószínűleg azt akarja mondani neked, hogy hamarosan egy másik világba megy. Telepítse a szoftvert, amely tájékoztatni fogja, mikor kell cserélni.

Sok felhasználó és rendszergazda nem ismeri az önellenőrzési, elemzési és jelentéskészítési technológiát (SMART), és ezt a technológiát szinte minden modern ATA és SCSI merevlemez használja. Azok a lemezek, amelyek támogatják ezt a technológiát, függetlenül figyelik az "egészségük" és a teljesítményüket. A legtöbb esetben a lemez képes figyelmeztetni az adminisztrátort arra, hogy valami nem megfelelő, és ez elkerüli a fenti forgatókönyvet. A legtöbb SMART implementáció lehetővé teszi a lemezfelhasználók számára, hogy teszteljenek egy lemezt és ellenőrizzék a paraméterek megbízhatóságát és teljesítményét.

Szakmánként fizikus vagyok. Kutatócsoportom egy olyan munkaállomás-csoportot használ, amely az elosztott számítástechnikát tartalmazza, amely körülbelül 600 merevlemezt tartalmaz, amely körülbelül 50 terabájt adatot tárol. Néhány évvel ezelőtt kezdtem érdeklődni a SMART technológia iránt, feltételezve, hogy ez segít a leállások csökkentésében és a klaszterünk megbízhatóságának javításában. Az év során nyílt forráskódú smartmontools szoftvereket használtam, amely az UCSC smartsuit csomag fejlesztésének folytatása volt.

Ebben a cikkben elmagyarázom, hogyan kell használni a smartmontools csomagban található smartctl segédprogramot, valamint a smartd démont a merevlemezek állapotának ellenőrzésére. Ez a csomag letölthető a smartmontools.sourceforge.net webhelyről. Ott megtalálja a telepítési útmutatót. További dokumentáció megtalálható a megfelelő man oldalakon:

ember smartctl és ember smartd

A smartmontools épületei a Slackware, a Debian, a SuSE, a Mandrake, a Gentoo, a Conectiva és más Linux disztribúciók számára állnak rendelkezésre. A RedHat a smartctl és smartd verziókat tartalmazza az UCSC smartsuit csomagból, a smartmontools pedig a jövőbeli verziókban.

Az ATA-4 szabványból kiindulva törölték a követelményeket a merevlemezek használatára a scorecard használatával kapcsolatban. Ehelyett a lemezek egyszerűen visszaküldték az állapotokat "OK" vagy "NEM OK" állapotukra vonatkozó kérelem érkezésekor. A lekérdezésre adott negatív válasz azt eredményezte, hogy a lemez meghibásodhat. Az ATA-5 szabványban hozzáadták a hiba napló karbantartását és az önteszt meghajtó indításának parancsát.

Ahhoz, hogy használja fel a fenti lehetőségek meghajtók, azaz a mutatók értékei a lemez állapotát (a legtöbb meghajtó kompatibilis a SFF-8035i), lekérdezi az egészségét egy lemezt, fuss egy öntesztet, nyomon követi a hiba napló nyomon jelentkezzen tesztelés (tartalmazza az eredményeket a 21. önellenőrzés), meg kell Tudja, hogyan kell használni a smartmontools csomagot.

smartctl -a / dev / hda

Ha a SMART nincs engedélyezve ehhez a meghajtóhoz, először engedélyeznie kell azt a -s on opcióval. Ha a SMART engedélyezve van, a lemezen lévő összes információ megjelenik:

Készülékmodell: IC35L120AVV207-0
Sorozatszám: VNVD02G4G3R72G
Firmware verzió: V24OA63A
Eszköz: A smartctl adatbázisban [részletekért használja: -P show]
ATA verziója: 6
Az ATA szabvány: ATA / ATAPI-6 T13 1410D revízió 3a
A SMART támogatás: Elérhető - a készülék rendelkezik SMART képességekkel.
A SMART támogatás: Engedélyezve

A parancs kimeneti töredéke a meghajtóról rendszerinformációkat tartalmaz. Ezt követi a lemez állapotáról szóló jelentés.

SMART egészségi önértékelési teszt eredménye: PASSED
Általános SMART értékek:
Off-line adatgyűjtési állapot: (0x82) Az offline adatgyűjtési tevékenység hiba nélkül történt.
Automatikus off-line adatgyűjtés: Engedélyezve.
Önteszt végrehajtás állapota: (0) Az előző önellenőrzési rutin hiba nélkül befejeződött vagy nincs önvizsgálat.
Teljes idő az off-line adatgyűjtés befejezéséhez: (2855) másodperc.
Offline adatgyűjtési képességek: (0x1b) A SMART azonnali azonnali végrehajtása.
Automatikus időzítő BE / KI támogatás.
Felfüggeszteni az offline gyűjteményt az új parancsra.
Az offline felületi vizsgálat támogatott.
Önteszt támogatott.
No Conveyance önteszt támogatott.
Nincs szelektív önteszt.
SMART képességek: (0x0003) Megtakarítja a SMART adatokat energiatakarékos mód előtt.
Támogatja a SMART automatikus mentési időzítőt.
Hiba bejelentkezési képesség: (0x01) Hiba naplózás támogatott.
Általános célú naplózás támogatott.
Rövid önvizsgálati rutin lekérdezési idő: (1) perc.
Kiterjesztett önvizsgálati rutin lekérdezési idő: (48) perc.

Ha a teszt eredménye a hiba első sorában FAILED-nak van jelölve, azonnal készítsen biztonsági másolatot az adatokról - a lemez meghibásodhat. Az adott részlet többi része a meghajtó műszaki jellemzőiről és a rövid és teljes önteszthez szükséges hozzávetőleges időtartamra vonatkozó információkat tartalmaz.

A "smartctl -a / dev / hda" parancs kimenetének harmadik része a lemez állapotának mintegy 30 jelzőjét tartalmazza:

Értékesítési specifikus SMART attribútumok küszöbértékekkel:
Az ID # ATTRIBUTE_NAME FLAG-ÉRTÉK A LEGNAGYOBB MÉRETŰ TÍPUSÚ FELHASZNÁLÁSA WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 060 előtti sikertelen Mindig - 0
2 Throughput_Performance 0x0005 155 155 050 Előzetes hiba Offline - 225
3 Spin_Up_Time 0x0007 097 097 024 Előhiba mindig - 293 (átlagosan 270)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Mindig - 10
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Mindig - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Mindig - 0
8 Seek_Time_Performance 0x0005 125 125 020 Előzetes sikertelenség Offline - 36
9 Power_On_Hours 0x0012 100 100 000 Old_age Mindig - 3548
10 Spin_Retry_Count 0x0013 100 100 060 előtti sikertelen Mindig - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Mindig - 10
192 Power-Off_Retract_Count 0x0032 100 100 050 Old_age Mindig - 158
193 Load_Cycle_Count 0x0012 100 100 050 Old_age Mindig - 158
194 Temperature_Celsius 0x0002 189 189 000 Old_age Mindig - 29 (Élettartam Min / Max 23/33)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Mindig - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Mindig - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Mindig - 0

Hadd emlékeztessem önöket arra, hogy ezeknek a mutatóknak az értékeit nem az ATA szabvány előírja, de a legtöbb meghajtók támogatják az SFF-8035i kompatibilitást.

Például az 194-es azonosítójú szám a meghajtó hőmérséklete. A gyakorlat azt mutatja, hogy a meghajtó hőmérsékletének 5 ° C-kal való csökkentése csökkenti a hibák számát, ezért a lemez megbízhatóságának növelésének egyik módja egy speciális hűtéssel történő hűtése.

Minden jelzőnek 6 bájtos nyers (nyers) értéke van (RAW-VALUE) és egy byte-os normalizált érték. Ebben a példában, a kezdeti érték magában foglalja a három számjegy: a hőmérséklet Celsius-fokban (29) és a minimális (23) és a maximális (33) az idő a hajtás számára értéket. Az a formátum, amelyben a mutatók elsődleges értékeit tárolják, a lemezgyártó határozza meg, és nem tartozik semmilyen szabványhoz. Annak megállapítására, a megbízhatóság a lemez, szoftver fordítja a kezdeti érték egy normalizált index, amely értéke 1 és 253. Ha a normalizált érték kisebb vagy egyenlő, mint egy küszöbérték (THRESH), indikátor van jelölve a jelölt FAILED WHEN_FAILED oszlopon. Ebben a példában ez az oszlop üres, mivel egyik mutató sem alacsonyabb, mint a beállított küszöbérték. A mutató SMART értékének bevitele óta a legalacsonyabb érték a WORST oszlopban látható. A típus oszlop információt tartalmaz, amely rossz az index értéke: a lemezt egyszerűen elkopott (old_age), vagy a lemez szélén a kudarc (pre-fail). Például, ha a lemez spin feltöltési ideje (3. azonosító) nem kielégítő, valószínűleg a következő 24 órában a lemezhiba valószínű.

A mutatók értékei és nevei, valamint az alapértékek normálissá való alakításának módja nem szerepel semmilyen szabványban. A különböző gyártók ugyanazokat a metrikus neveket használhatják különböző célokra. Ezért lehet ellenőrizni, hogy a különböző paraméterek hogyan értelmezhetők az -v opció használatával. Például egyes lemezek a 9 kijelzőn tárolják a lemez működési idejét percekben. A "-v 9, perc" opció azt jelzi, hogy az indikátor értékeit percekben kell megjeleníteni. Ha a lemezmodell a smartmontools adatbázisba kerül, akkor a smartctl automatikusan használja az értékek értelmezésének megfelelő módjait.

A "smartctl -a" parancs következő kimeneti töredéke lemezhiba napló. Általában ilyen hibák hiányoznak, ezért a napló üres. Az aggodalomra ad okot számos hiba előfordulása. Leggyakrabban az időről időre megjelenő hibák nem jelentenek komoly problémákat. A smartmontools weboldal számos hibapéldányt tartalmaz. Megmutatja a teljes lemezlefutási időt, az ATA parancsot, amely hibát eredményezett és azt a pillanatot, amikor a lemezt ezredmásodpercben bekapcsolta. Azt is megtudhatja, hogy volt-e hiba hosszú ideig vagy teljesen friss volt.

SMART Error Log verzió: 1
Nincsenek rögzített hibák

A smartctl -a kiadás utolsó, ötödik része egy öntesztjelentés, amely ezen a meghajtón futott. Itt van két lehetőség az önellenőrzésre - rövid és teljes. Ezeket az önellenõrzéseket csoportok kezdeményezhetik

smartctl -t rövid / dev / hda

és

smartctl -t hosszú / dev / hda

Az önellenőrzés nem sérti meg a lemezen lévő adatokat. A rövidített ellenőrzés rendszerint néhány percet vesz igénybe, egy teljes - egy óra. A tesztelés nem érinti a lemez működését, így elindíthatja azt, amikor a rendszer a lemez behelyezésekor fut. A fürtünk csomópontjain például az ellenőrzés teljes verzióját vasárnap reggel hajtja végre az ütemező. Az alábbi példák a hibátlan vizsgálati eredményekre vonatkoznak. A LifeTime oszlop mutatja a lemez bekapcsolásának időpontjától a teszt végrehajtásáig eltelt időt. Ha a teszt során hibákat észlelnek, akkor a logikai blokk címe (LBA) pontosan jelzi a hiba helyét. A fennmaradó oszlop azt jelzi, hogy a vizsgálat mely része (százalékban) a hiba észlelésekor fennmaradtáig maradt. Ha azt gyanítja, hogy valami nincs rendben a lemezen, azt javasolnám, hogy végezze el a teljes lemez önellenőrzését a probléma azonosításához.

SMART önteszt napló, verziószám 1
Num Test_Description állapot maradt LifeTime (óra) LBA_of_first_error
# 1 Kiterjesztett off-line Befejezett 00% 3525 -
# 2 Kiterjesztett off-line Befejezett 00% 3357 -
# 3 Short off-line Befejezett 00% 3059 -

csapat

smartctl-t offline

lehetővé teszi offline tesztek végrehajtását. Ezek a tesztek nem tartalmaznak bejegyzéseket az önteszt naplójában. Használják azokat a lemezállapot-mutatók értékét, amelyek normál működés közben nem frissíthetők. Egyes meghajtók néhány óránként támogatják az automatikus off-line teszteket. Ezt a funkciót a parancs engedélyezheti

smartctl -o on

A SMART egy olyan mechanizmust biztosít a lemez öntesztjének végrehajtására, amely ellenőrizni tudja a teljesítményét. De ez nem biztosítja a felmerülő problémák automatikus észlelésének lehetőségét, és mivel gyakran a lemezek SMART állapotát nem ellenőrzik elég gyakran, sok probléma csak akkor nyilvánulhat meg, ha lemezhibákhoz vezetnek. Természetesen rendszeresen megfigyelheti a lemezeket, amint leírtam, de ez nem mindig kényelmes.

Ezért a smartmontools csomag tartalmaz egy intelligens démont, amely folyamatos megfigyelést végezhet. Beállítható, hogy e-mailt küldjön a rendszergazdának, vagy futtassa a szkriptet, ha hibákat észlel. Alapértelmezés szerint 30 percenként ellenőrzi az összes rendszerlemezt, és bejegyzéseket tesz a SYSLOG-ban a / var / log / messages fájlokban.

ha probléma merül fel.

Bruce Allen a Wisconsin-i Egyetem fizika professzora, Milwaukee. Yuri Levin fordítása, [email protected].

Kapcsolódó cikkek