Root » Servers » Harde schijf » Smart » Monitoring programma's
Monitoring van de toestand van de harde schijf:
Smart monitoring
Smart status
Ik heb drie harde schijf monitoring programma's voor u uitgekozen. Ze zijn alle drie gratis, en de eerste zit zelfs standaard op je computer!

POST Power On Self Test

IBM is als eerste begonnen met zijn harde schijven te voorzien van een controle-programma. Dit programma heet SMART (Self-Monitoring, Analysis and Reporting Technology). IBM maakt nu geen harde schijven voor desktops en laptops meer, maar het systeem is door de andere computerfabrikanten overgenomen. De meeste moederborden voeren een SMART-test uit tijdens de opstartfase als onderdeel van de POST-routine.

Deze test heeft wel grote beperkingen:

  • De test geeft enkel een GOED/FOUT-conditie, terwijl er eigenlijk meer dan 200 SMART-parameters bestaan die een waarde hebben tussen 1 en 253.

  • Geen zicht op de evolutie van de parameters, deze zijn belangrijk om fouten te voorkomen.

  • De meting gebeurt slechts éénmaal bij het opstarten van het systeem, terwijl een echte smart-programma de parameters bijvoorbeeld om het uur opvraagt. De toestand van de harde schijf varieert namelijk met de tijd (de parameters kunnen verslechteren als de schijf warmer wordt).

  • Geen bevestiging dat de disk de smart-commando uitgevoerd heeft. Heeft het moederbord wel de opdracht naar de harde schijf gestuurd? Heeft de harde schijf wel de SMART-opdracht uitgevoerd?
Een echte smart-programma heeft de nadelen niet. Ik heb twee smart-programma's uitgetest: HDD Health van panterasoft (www.panterasoft.com) en smartmontools (open source).

Opgelet, de meeste SCSI schijven geven geen volwaardige SMART-informatie (enkel een status OK of niet-OK). Met de software op deze pagina ben je dus niets. Om SMART-compliant te zijn moet een schijf theoretisch enkel een OK of FOUT-conditie kunnen geven, maar (S)ATA drives geven heelwat meer informatie, waardoor je kan bepalen hoe goed de schijven nog zijn en zelfs hoe lang ze nog zullen meegaan.

HDD Health van Panterasoft

HDD Health in de system tray

De nieuwe versie van HDD Health

Op de pagina over het voorkomen van diskfouten wordt eerst uitgelegd wat de SMART-monitoring eigenlijk is, en dan wordt HDD Health besproken. Het programma heeft als voordeel dat het bijzonder klein is, gratis is en volledig zelfstandig draait. Het wordt automatisch opgestart met windows en vraagt om het uur de smart-parameters van de harde schijf op (hoe vaak de parameters opgevraagd worden kan je instellen).

Als een parameter veranderd is ten opzichte van de vorige meting, dan wordt dit door een pop-up getoont. Maar je kan ook heelwat meer informatie bekomen over de harde schijf als je op het icoontje in de system tray klikt.
Dit programma probeert ook voorspellingen te doen in verband met de betrouwbaarheid van de harde schijf.

Op de site van Panterasoft, de maker van HDD Health kan je nu een "verbeterde" versie downloaden. Je krijgt er een mooie thermometer bij (zie figuur), maar minder informatie: de absolute waarde raw value van bepaalde parameters (bijvoorbeeld "current pending sector count") verschijnen niet meer. Deze absolute parameters geven meer nuttige en bruikbare informatie dan de echte smart-parameters normalised value. De ouve versie is dus beter dan de nieuwe (sinds XP en vista is dat een gewoonte geworden), en daarom geen link naar de site. Een ander nadeel van de nieuwe versie is dat de drives om de zoveel seconden aangesproken worden en blijkbaar een zelftest uitvoeren. Daardoor zijn de drives continu aktief en gaan ze nooit in power down modus. Ook is deze zelftest bijzonder irriterend wegens het gemaakte geluid (het normale access maakt minder geluid). Bij de nieuwe versie zijn er heelwat minder parameters instelbaar (test & exit, polling interval,…).

Dit is de originele versie van het programma HDD Health.

Smartmontools

Een ideale combinatie
Gebruik zowel HDD Health van panterasoft
als smartctl van smartmontools
(beide werken elkaar niet tegen)
Dit programma bestaat uit twee componenten: een "service" dat op regelmatige tijdstippen de parameters van de harde schijf opvraagt en een command-line utility dat extra mogelijkheden biedt.

smartd

Dit component is vergelijkbaar met HDD Health, maar het resultaat wordt in de event log van windows geschreven (en de meeste gebruikers weten niet waar de event log van windows zit!).
Deze dæmon start niet vanzelf, je moet windows vertellen dat het het programma automatisch moet opstarten, eventueel via een service-starter (zoek in google "run application as service").
Ook moet je een aantal parameters opgeven via de command line. Het programma werd oorspronkelijk voor Unix-systemen geschreven, en de handleiding is daarom ook bijzonder technisch en compact (er wordt blijkbaar van unix gebruikers verwacht dat ze enige vorm van intelligentie hebben, wat niet gezegd kan worden van windows gebruikers "Ginette vertelt je hoe zij haar peeceefobie overwon"). Dit programma is duidelijk niet voor de modale gebruiker.
De output is ook niet zo goed als dat van HDD Health: geen mooie user interface, geen lijst met de gemeten parameters en hun waarde, geen TEC-voorspelling (treshold exeeded condition). Maar het programma leent zich bijzonder goed om gebruikt te worden op een server (dat geen gui heeft).

Maar dit moet de echte freak niet afschrikken: met een beetje programmeren haal je de parameters uit de logs en toon je ze op een webpage.

Wanneer werkt SMART niet?
SMART kan niet overweg met hardware-raid
(waarbij meerdere schijven simultaan worden gebruikt)
omdat de hardware ervoor zorgt
dat de software maar één schijf ziet.

smartctl

Met deze command-line programma kan je heelwat doen! Je kan bijvoorbeeld een hard disk test opvragen; deze test duurt een paar minuten en wordt uitgevoerd als de schijf geen normaal werk heeft. Deze test is zeer uitgebreid en kan mogelijke problemen zeer vroeg voorspellen. Na een paar minuten vraag je de resultaten op.

Dit programma is opnieuw 100% command-line, en dus niet voor de modale gebruiker, maar geeft je een schat aan informatie over de toestand van je harde schijf. In tegenstelling met smartd dat als een dæmon draait (op de achtergrond aktief blijft), draait dit programma interactief: het programma geeft de opdracht door aan de harde schijf en stopt.

Eigenlijk wordt er van de gebruiker ook verwacht dat hij ervaring heeft met command-prompt redirection om de gegenereerde output naar een bestand te sturen (anders vliegen de resultaten —meestal meerdere pagina's— over het scherm).

Hier zie je een korte lijst van de output van smartctl (opvraging van de algemene toestand):

smartctl version 5.33 [i386-pc-mingw32] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     Maxtor 6K040L0
Serial Number:    K13H5CZG
Firmware Version: NAR61HA0
User Capacity:    41,110,142,976 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   7
ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0
Local Time is: Tue Apr 11 11:31:11 2006 W. Europe Daylight Time SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED
In het blauw het enig antwoord dat de POST-test zou gegeven hebben
General SMART Values:
Offline data collection status:  (0x80)
                        Offline data collection activity	was never started.
                        Auto Offline Data Collection: Enabled.

Self-test execution status:      (   0)
                        The previous self-test routine completed without error
                        or no self-test has ever been run.
                        Total time to complete Offline data collection: (1021) seconds.

Offline data collection capabilities: (0x5b)
					SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)
                        Saves SMART data before entering power-saving mode.
                        Supports SMART auto save timer.
Error logging capability:        (0x01)
                        Error logging supported.
                        No General Purpose Logging support.

Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (  17) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   221   220   063    Pre-fail  Always       -       7392
  4 Start_Stop_Count        0x0032   253   253   000    Old_age   Always       -       855
  5 Reallocated_Sector_Ct   0x0033   253   253   063    Pre-fail  Always       -       0
  6 Read_Channel_Margin     0x0001   253   253   100    Pre-fail  Offline      -       0
  7 Seek_Error_Rate         0x000a   253   252   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   249   245   187    Pre-fail  Always       -       43986
  9 Power_On_Hours          0x0032   252   252   000    Old_age   Always       -       35854
 10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   253   253   000    Old_age   Always       -       23
192 Power-Off_Retract_Count 0x0032   253   253   000    Old_age   Always       -       20
193 Load_Cycle_Count        0x0032   253   253   000    Old_age   Always       -       906
194 Temperature_Celsius     0x0032   253   253   000    Old_age   Always       -       26
195 Hardware_ECC_Recovered  0x000a   253   252   000    Old_age   Always       -       11322
196 Reallocated_Event_Count 0x0008   253   253   000    Old_age   Offline      -       0
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       0
198 Offline_Uncorrectable   0x0008   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0008   199   199   000    Old_age   Offline      -       0
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   252   000    Old_age   Always       -       0
202 TA_Increase_Count       0x000a   253   252   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       0
204 Shock_Count_Write_Opern 0x000a   253   252   000    Old_age   Always       -       0
205 Shock_Rate_Write_Opern  0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
209 Offline_Seek_Performnce 0x0024   187   187   000    Old_age   Offline      -       0
 99 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
100 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
101 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       560         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
                        After scanning selected spans,
                        do NOT read-scan remainder of disk.
                        If Selective self-test is pending on power-up,
                        resume after 0 minute delay.

Links to relevant pages - Liens vers d'autres pages au contenu similaire - Links naar gelijkaardige pagina's