Intel & Samsung
Paramètres SMART
Intel Samsung
Root » Serveurs » Electro-ménager » Disques durs » Ordinateurs » SSD | Smart » Samsung + Intel
-

-

Les disques durs SSD de Intel fournissent un statut SMART. Les différents modèles utilisent tous pratiquement les mêmes codes. La documentation technique en ligne de Intel est bien faite et permet de décoder manuellement les paramètres que l'utilitaire SMART ne connait peut-être pas, tandis que les SSD de Samsung sont fournis avec une documentation (PDF) très complète


Intel


Samsung


Les indications en vert sont les dénominations pour les disques classiques, qui sont parfois utilisées dans le logiciel de monitoring SMART si celui-ci ne connait pas la terminologie spécifique des drives SSD.

Exemple pratique

Ce serveur est équipé d'un disque Intel 520.
Vous pouvez demander les paramètres SMART en temps réel!

I N T E L   S a m s u n g
5 - 05h - Re-allocated sector count (aussi Samsung)
Indique le nombre de cellules de mémoire mises hors fonction. Ce paramètre indique l'état général du disque mais n'indique pas une défaillance car des pages sont mises hors-fonction dès qu'elles sont épuisées. Le disque dispose de cellules de réserves (un disque de 60GB a en fait 64GB de mémoire, les 4 GB sont gardés en réserve).

9 - 09h - Power on hours count (aussi Samsung)
Nombre d'heures de fonctionnement (attention, la valeur ne peut pas être utilisée telle quelle, c'est une valeur hexadécimale).

12 - 0Ch - Power cycle count (aussi Samsung)
Nombre de mises sous tension

170 - AAh - Available reserverd space
Capacité en réserve prévue pour remplacer les cellules qui sont usées.

171 - ABh - Program fail count
Nombre d'erreurs de programmation (enregistrement de données)

172 - ACh - Erase fail count
Nombre d'erreurs d'effacement (les cellules doivent être effacées avant de recevoir de nouvelles données).

174 - AEh - Unexpected power loss
Nombre de fois que le disque dur est tombé sans électricité sans indication préalable (commande STANDBY IMMEDIATE). Il est important qu'une procédure de mise à l'arrêt est suivie, pour s'assurer que toutes les données en mémoire-tampon soient stockées en mémoire flash. Certains disques utilisent des condensateurs pour fournir du courant pendant la phase de sauvegarde d'urgence, d'autres disques essaient de reconstruire les données manquantes à partir d'une sorte de journal de bord.

177 - B1h - Wear leveling count
Nombre d'opération d'effacement d'un bloc. La mémoire SSD s'use à cause des opérations d'effacement. Chaque bloc de mémoire d'un disque TLC (triple level cell) peut être reprogrammé environ 2000 fois. Le controlleur va effectuer les opérations d'écriture de telle façon que tout le disque s'use uniformément. Une valeur de 24 indique qu'en moyenne chaque bloc a été reprogrammé 24 fois, ce qui donne une durée de vie restante d'environ 34 ans (si les blocs ont été usée en moyenne de 24/2000 = 1.2% en 5 mois).

179 - B3h - Used reserved block count
Nombre de blocs gardés en réserve qui sont utilisés. Un bloc de réserve est utilisé dès qu'un bloc ne peut plus être écrit ou effacé correctement.

181 - B5h - Progam fail count
Nombre d'opérations d'écriture qui ont raté. Si une page rate plusieurs fois de suite, tout le bloc est mis hors d'usage et un bloc de réserve est utilisé à sa place.

182 - B6h - Erase fail count
Nombre d'opérations d'effacement qui ont raté. Il faut effacer tout le bloc avant de pouvoir y écrire. Si l'effacement rate plusieurs fois de suite, le bloc est mis hors d'usage.

183 - B7h - SATA downshift count
183 - B7h - Runtime bad count
Nombre de fois que l'interface SATA a du fonctionner à basse vitesse à cause d'erreurs
Somme de toutes les opérations de programmation ou d'effacement qui ont raté.

184 - B8h - End-to-end error detection count
Nombre d'erreurs détectées entre ordinateur et stockage sur disque. Il s'agit de la communication générale entre ordinateur et mémoire.

187 - BBh - Uncorrectable error count (aussi Samsung)
Nombre d'erreurs qui n'ont pas pu être corrigées par les routines de correction (un disque SSD utilise un système de correction comme les disques durs classiques).

190 - BEh - Airflow temperature (aussi Samsung)
Température du disque

192 - C0h - Unsafe shutdown count Power-off retract count
Correspond au paramètre 174
Disques classiques: indique le nombre de fois que les têtes ont du être parquées d'urgence à cause d'une coupure de courant.

194 - C2h - Device internal temperature
Température interne

195 - B7h - ECC error rate
Nombre d'erreurs qui ont pu être corrigées par les routines ECC

199 - C7h - CRC error count (aussi Samsung)
Erreurs détectées et corrigées par le mécanisme CRC (cyclic redundancy check). Il s'agit des erreurs qui se produisent entre la mémoire et l'ordinateur (spikes ou surcharges électriques, etc).

225 - E1h - Host writes Load-unload cycle count
Nombre d'opérations d'écriture (par 32 MB).
Disques classiques: indique le nombre de fois que les têtes ont été parquées sur la rampe.

226 - E2h - Timed workload media wear load-in timer
Certains disques durs (utilisés dans des serveurs) ont un mesureur de charge. Le disque dur est utilisé avec une charge normale pendant par exemple 24 heures, ce qui permet d'évaluer l'usure du disque selon la charge.
Disques classiques: indique les heures de fonctionnement effectives (plateaux en rotation)

227 - E2h - Timed workload host read/write ratio Torque amplification count
Pourcentage d'écritures pendant la durée du test. Une lecture n'use pratiquement pas le disque.

228 - E3h - Timed workload timer Power off retract count
Durée de la période de test. Un programme spécial met le disque en phase de test, puis on l'utilise normalement. Après cette période, on peut évaluer l'usure que l'utilisation pendant la période de test à provoqué.

232 - E8h - Available reserverd space (Endurance remaining)
Double du paramètre 170

233 - E9h - Media wearout indicator Power-on hours
Indication du nombre d'opérations d'écriture. La valeur de ce paramètre diminue au fil du temps, mais n'indique pas nécessairement une réduction de la fiabilité.
Disques classiques: nombre d'heures sous tension

235 - EBh - POR recovery count
Nombre de pertes de courant. En cas de perte de courant sans arrêt normal du disque SSD, le firmware doit remettre à jour le tableau d'attribution (mapping table). Ce tableau indique où chaque page est stockée physiquement et est gardé en permanence en mémoire vive dans le SSD. Il est stocké sur le SSD en cas d'arrêt programmé (commande ATA STANDBY_IMMEDIATE)

241 - F1h - Total LBAs written
Nombre de blocs écrits au niveau de l'interface SATA (compte par 32MB). Il s'agit des blocs logiques (Logical Blocs) écrits par l'ordinateur.

242 - F2h - Total LBAs read
Nombre de blocs lus au niveau de l'interface SATA (compte par 32MB)

249 - F9h - Total LBAs written (aussi Samsung)
Nombre de pages écrites au niveau de la mémoire flash (compte par GB). Un MB d'écrit au niveau de l'interface correspond à plusieurs MB écrits au niveau de la mémoire (écriture effective). Cette augmentation des données écrites est la write amplification et dépend surtout de l'algoritme utilisé par le controlleur SSD.

Certains paramètres sont repris en double: selon le type de disque l'un ou l'autre paramètre sera utilisé (il n'y a pas de standardisation, même pas au niveau d'Intel).

Ce disque indique le nombre d'opérations d'écriture (paramètre 241) et de lecture (paramètre 242), mais également le nombre d'écritures au niveau de la mémoire. Comme vous pouvez le voir, le facteur d'amplification (write amplification) est de pls de 10×, et ce pour un disque qui n'est rempli qu'à 15% environ. On en est à 5TB d'écriture en 2 ans, alors que la durée de vie minimale d'un SSD est de 100TB. Le disque devrait donc tenir le coup plus de 20 ans...

Nous sommes 6 ans plus tard et le disque SSD a maintenant 8 ans de fonctionnement. Les maramètres smart n'ont pas changé (vous pouvez lire en temps réel les paramètres smart de mon serveur). Le paramètre 187 a même augmenté, alors qu'il devrait normalement diminuer avec le nombre d'erreurs qui s'accumulent.

Les disques de mémoire moderne du type NVMe (non volatile memory express) n'ont plus de fonction SMART. Ce système a été conçu pour les disques durs avec connecteur ATA et puis SATA. Entretemps nous sommes 30 ans plus tard et on ne vend pratiquement plus d'ordinateurs équipés de disques mécaniques.

Le protocole smart n'a pas vraiment percé pour les disques SSD et c'est surtout la faute des fabricants. Certaines firmes comme Intel transmettent correctement les paramètres, mais le statut n'est jamais adapté avec d'autres fabricants. Les valeurs restent toujours à 100, même pour des disdques qui ont un fonctionnement erratique manifeste. Même un disque qui ne peut pratiquement plus être lu donne toujours un statut OK. C'est probablement pour cela que le protocole smart n'a pas été repris dans la dernière version des modules de mémoire.

La seule solution c'est de mesurer régulièrement la vitesse des modules de mémoire (bien que cela ne donne pas une certitude que le module est encore bon). Quand un module a besoin de plus de temps pour lire un "secteur", cela veut dire que la mémoire est en fin de vie. Quand le module est défectueux, c'est d'abord l'écriture qui n'est plus possible, mais la lecture devient également plus lente car il faut faire plusieurs tentatives de lecture et utiliser la correction d'erreur. Pour détecter des problèmes, il faut lire suffisamment de blocs, une valeur de 1000 est idéale. La lecture n'use pas la mémoire, contrairement à l'écriture (un bloc peut être écrit au maximum 10.000 fois dans les dernières mémoires triple level cell).

Publicités - Reklame

-