Servers en computers: correlatie tussen smart parameters en disk uitval

Correlatie tussen smart parameters en disk uitval

Hoe betrouwbaar zijn de smart parameters

Correlatie

Google die zijn enorme bestanden opslaat op goedkope servers uitgerust met standaard onderdelen heeft een analyse uitgevoerd van de uitval van de harde schijven. Het volledig verslag is te lezen op deze PDF pagina: Failure trends in a large disk drive population.

Correlatie Smart - Uitval

Uitval in funktie van de ouderdom

Uitval in funktie van het gebruik

Uitval in funktie van de temperatuur

Uitval na een smartfout

Als enige firma in de wereld heeft Google voldoende computers die overal in de wereld opgesteld staan om statistisch significante gegevens te geven. Google werkt met computer-farms bestaande uit duizenden goedkope computers: dezelfde computers die gewone gebruikers zouden kopen. De gegevens van Google zijn dus zeer relevant voor de modale gebruiker: het betreffen hier geen high end servers, maar gewone werkstations.

Goolge heeft ook een compleet systeem ontworpen om de smart-parameters en de defekten van iedere individuele drive bij te houden. De volgende tekst is een samenvatting van het artikel. Google rekent als defekt een "foutconditie dat tot vervanging van de harde schijf heeft geleid". Uiteindelijk blijkt een klein percentage van de vervangen schijven niet defekt.

Uitval in funktie van ouderdom
Een eerste grafiek uit de studie toont ons aan dat de meeste uitval na 2 jaar gebeurt. Bijna altijd is de uitval meer dan 2% per jaar, wat toch vrij veel is. Bij de kleinere notebook schijven bedraagt de uitval zelfs 5% per jaar. Het lijkt dat de fabrikanten de betrouwbaarheid van hun schijven niet hoog op hun lijst staan hebben. Het is spijtig dat wij geen lijst hebben van de uitval per merk.

De cijfers zijn een goede waardemeter voor servers en dergelijke, maar waarschijnlijk minder van toepassing op computers die niet continu draaien. De volgende tabel moet ons informatie geven als de schijven minder zwaar belast worden (wat doorgaans het geval is met normale desktop computers).

Uitval in funktie van gebruik
De tweede grafiek toont ons dat drives die intensief gebruikt worden vaker uitvallen in de eerste maanden. Dat er minder uitval is in latere periodes komt waarschijnlijk door natuurlijke selektie: de zwakkere drives raken vroegtijdig defekt als ze intensief gebruikt worden, wat tot gevolg heeft dat de betere drives de statistieken van de volgende periode beinvloeden. Bij normaal gebruik is de selectiedruk niet zo sterk en zitten er meer zwakkere drives in de volgende jaren.

Uitval in funktie van de temperatuur
De derde grafiek toont ons opmerkelijke gegevens: lage temperaturen zijn slechter voor een drive dan hoge temperaturen. De balkjes tonen ons het aantal schijven in die groep en de bolletjes het aantal defekte schijven per groep. Uit de grafiek blijkt dat de beste werkingstemperatuur voor een harde schijf ongeveer 40 graden is. Oudere schijven (vanaf 3 jaar) hebben echter meer last van hogere temperaturen: tussen 30 en 35 graden blijkt een optimale temperatuur te zijn. De schijftemperatuur wordt automatisch aan het systeem verstrekt: het is namelijk één van de SMART-parameters.

Uitval na een eerste smart-fout
Bij de vierde grafiek komen we aan de echte SMART-parameters. Kan een optredende foutconditie ons iets vertellen over de verdere betrouwbaarheid van de harde schijf? Uit de analyse blijkt dat een schijf die een foutconditie opgetekend heeft 39 keer meer kans maakt om defekt te gaan dan een gelijkaardige schijf dat geen foutconditie opgemerkt heeft. De uitval is groter voor jongere schijven: een foutconditie betekent met een grotere zekerheid de uitval van de drive dan een foutconditie bij oudere drives. Het is wel spijtig dat Google ons niet verteld welk SMART-parameter onderzocht werd.

Wat de grafieken ons niet tonen, is dat 56% van de defekte drives nooit een kritieke SMART-foutconditie hebben vertoont, en dit komt ook overeen met mijn ervaring als technieker. Vaak wordt er pas alarm geslagen (melding in de POST) als de schijf reeds fouten vertoont.

Als men echter naast de kritieke foutcondities ook de prefailure attributes in rekening brengt en men een evolutie probeert te bekomen (zoals het smart monitoring programma van Panterasoft doet), dan bekomt men een veel betere prognose. De oplossing is dan ook voor de hand: gebruik een echt smart-programma, en vertrouw niet op het systeem.

Publicités - Reklame