Recherche

20 octobre 2022

CARTON ROUGE - Pourquoi les SSD claquent sans crier gare ?

Tous les jours, nous sommes confrontés à des défaillances de disques durs, de SSD et d'autres supports de stockage. Il est difficile de ne pas en conclure que, quel que soit le support de stockage que vous utilisez, il est voué à l'échec. Pourquoi les disques durs ne sont-ils pas fiables, qu'est-ce qui cause la défaillance des SSD, et que pouvez-vous faire pour minimiser les risques que vous ayez un jour besoin de nos services ? Lisez la suite pour le savoir !

Mécanique de précision

Les disques durs sont de petits chefs-d'œuvre de mécanique de précision. Même les modèles économiques les moins chers sont assemblés avec des pièces mécaniques de précision et des tolérances serrées, sinon ils ne fonctionneront pas du tout. Une minuscule particule de poussière capturée à l'intérieur du corps du disque avec des plateaux magnétiques tournant à la vitesse de milliers de tours par minute peut littéralement provoquer un désastre. Un choc accidentel peut déséquilibrer les composants internes et causer des dommages disproportionnés par rapport à la cause. Une surtension électrique, des températures trop élevées ou trop basses ou tout simplement l'usure peuvent ruiner le disque dur et provoquer d'énormes pertes de données, voire rendre le disque dur invisible pour votre ordinateur. Pour garder votre disque dur magnétique en bonne santé, évitez les chocs brutaux et chutes quand il fonctionne autrement la tête de lecture peut toucher le plateau et rayer la surface (= Head Crash), l'humidité élevée et les températures extrêmes.

Les SSD : Une route à sens unique

L'arrivée des SSD sans plateaux tournants, sans mécanique de précision et sans pièces mobiles a été un énorme soulagement. Nous avons pensé : "Bien sûr, c'est cher". "Mais le prix du gigaoctet de stockage va bientôt baisser. Quand ce sera le cas, le SSD remplacera les disques durs et dominera le monde", pensions-nous. Nous avions tort !

Contrairement aux disques durs magnétiques traditionnels, les SSD sont beaucoup moins chers à fabriquer. Ils ne nécessitent pas d'énormes usines, de salles blanches ou d'équipements de réglage de précision. N'importe qui peut acheter un contrôleur et souder des puces flash BGA sur la carte de circuit imprimé et boum ! nous avons un disque SSD. Certes, le coût des puces flash est encore plus élevé que celui des plateaux magnétiques, mais ce n'est pas pour longtemps. Tôt ou tard (et je parie que ce sera plutôt tôt que tard), la mémoire flash deviendra inévitablement moins chère que la mécanique de précision utilisée dans les disques durs traditionnels. C'est ainsi que fonctionne le progrès. C'est inévitable.

Mais est-ce une bonne chose ?

Bien sûr, les SSD sont plus rapides, plus petits et plus légers que les disques durs magnétiques. Ils sont beaucoup plus robustes, et peuvent survivre à des chocs et des coups qui tueraient un disque dur ordinaire. Ils ne font pas de bruit et ne chauffent pas mais émettent plus de CO2 que leurs confrères, et les SSD sont beaucoup plus économes en énergie que les disques durs magnétiques (il n'y a pas de moteurs à faire tourner ni de plateaux métalliques lourds à faire tourner). Tout est rose, non ?

Eh bien, apparemment, ce n'est pas le cas. Le stockage à l'état solide basé sur NAND a sa part de problèmes. L'un des principaux problèmes est la durée de vie limitée des cellules NAND. Chaque fois qu'une cellule flash est écrite, un dommage léger mais permanent est causé, ce qui réduit quelque peu sa durée de vie. En fonction de nombreux facteurs (la technologie de fabrication utilisée, qu'il s'agisse d'un MLC, d'un TLC ou d'un QLC, la qualité des matériaux, le processus technologique, etc.), une cellule NAND peut supporter entre cent et dix mille cycles d'écriture environ.

Une fois ce nombre de cycles d'écriture atteint, le contrôleur du SSD peut intervenir ou non (là encore, cela dépend de la façon dont le fabricant décide de gérer la situation). Certains SSD d'entreprise (tels que ceux fabriqués par Intel) verrouillent instantanément l'ensemble du SSD lorsqu'ils atteignent leur nombre nominal de cycles d'écriture (= passage en lecture seule). Cela permet d'éviter toute perte de données potentielle. D'autres SSD marquent les cellules qui ont atteint la fin de leur durée de vie effective comme étant en lecture seule ou déclaré mort, tout en autorisant l'écriture sur d'autres cellules moins usées. D'autres appareils autorisent l'écriture sur des cellules flash bien au-delà de leur durée de vie nominale, et cela peut durer pendant bien plus de cycles que la durée de vie nominale.

Le fait est que plus une cellule flash est usée, moins longtemps elle peut retenir les données qui y sont écrites. Un SSD flambant neuf, fraîchement sorti de l'emballage, peut conserver les informations écrites pendant 6 à 8 ans (selon les estimations publiées, car les SSD en général n'existent pas depuis aussi longtemps pour tester cette affirmation). Après 1000 cycles d'écriture, le SSD n'est assuré de conserver les informations (à l'état éteint) que pendant environ 6 mois, après quoi les erreurs commencent à se glisser. Plus vous écrivez sur un SSD, moins il est fiable !

D'accord, vous pourriez penser. 1000 opérations d'écriture par cellule, ça fait beaucoup. Avec un SSD de 256 Go, je dois écrire... 2,5 exaoctets de données avant qu'il ne devienne inutilisable. Pas vrai ?

Pas tout à fait. Contrairement aux disques durs magnétiques, les SSD ont un "facteur d'amplification de l'écriture". Afin d'éviter une usure inégale des cellules flash NAND, le SSD tente de répartir les écritures de manière plus ou moins égale entre les cellules (c'est ce qu'on appelle le nivellement de l'usure). Si vous ne disposez que de 1 Go d'espace libre sur un SSD de 10 Go, le contrôleur du SSD ne réutilisera pas les cellules flash appartenant à cet espace d'adressage de 1 Go. Au lieu de cela, il déplace les données statiques vers l'une des cellules ayant un nombre de cycles d'écriture plus élevé, libère les cellules ayant moins de cycles d'écriture et les utilise pour écrire de nouvelles données. Cette opération est réalisée en interne et est totalement transparente pour le système d'exploitation. Cependant, chacune de ces opérations augmente en moyenne le nombre de cycles d'écriture placés sur le SSD. Par conséquent, vous pouvez facilement obtenir 2 ou 3 Go d'écriture pour 1 Go de données que vous écrivez réellement sur le disque.

Vous n'êtes toujours pas convaincu ? Votre système a probablement un fichier de pagination (= swap) et un fichier d'hibernation stockés sur le SSD du système (et c'est la bonne chose à faire malgré les conseils mal fondés qui recommandent de déplacer votre fichier de page sur un disque dur magnétique lent, bruyant et peu réactif).

Dans ces conditions, faut-il abandonner les SSD et revenir à des disques durs gourmands en énergie, lents et bruyants ? Pas du tout. Une fois que vous avez atteint la vitesse et la réactivité d'un SSD, vous ne pouvez plus revenir en arrière. Cependant, lorsque vous stockez de grandes quantités d'informations qui ne nécessitent pas un accès fréquent ou des temps de chargement instantanés (comme vos archives de photos ou votre collection de vidéos), il est toujours préférable d'utiliser un disque dur magnétique, qui semble fragile.

Voici quelques commentaires des utilisateurs déçus de leurs SSD : Corsair MP300 tombé en panne sans prévenir selon Cil ....

Pas fiable du tout. Mon Corsair MP300 a rendu l'âme comme par enchantement. Heureusement, j'avais lu des articles sur les SSD et j'ai choisi de garder le disque dur d'origine de mon ordinateur portable pour les fichiers et l'ancienne installation de Windows et d'utiliser le SSD pour l'utilisation quotidienne des logiciels et de Windows. Maintenant, je vais simplement le remplacer pour le même usage.

Je préfère que quelqu'un trouve un moyen de rendre les disques durs plus rapides plutôt que d'utiliser ces disques de merde. C'est de l'argent facile car ils tombent en panne fréquemment et nous devons continuer à les remplacer si nous voulons faire quoi que ce soit avec Windows 10 de merde.

Même chose avec Tuna

Je suis d'accord avec Cil. Mon SSD est également tombé en panne. Je fonctionne maintenant uniquement sur disque dur.

La vitesse du disque dur est encore assez impressionnante et beaucoup moins chère tout en ayant un grand espace de stockage.

Les SSD ont beaucoup plus de sens dans les ordinateurs portables où leur utilisation est limitée. L'espace et la consommation d'énergie sont également limités.

Petya, même situation que Cil et Tuna

J'ai possédé 3 SSD dans ma vie, dont certains étaient sous garantie et un autre était un remplacement. Ils sont tous tombés en panne de manière inattendue dans les deux ans suivant leur achat. Tous mes disques durs continuent à fonctionner. La seule raison pour laquelle j'ai retiré des disques durs était parce qu'ils n'avaient plus assez de données pour rendre leur utilisation pratique, et non parce qu'ils avaient une défaillance complète du système.

La seule utilité d'un périphérique de stockage de données est d'avoir les données quand vous les voulez. Lorsqu'un périphérique de stockage de données ne peut pas le faire, cela implique que vous devez gaspiller des ressources pour obtenir une sauvegarde fiable. J'ai décidé de supprimer définitivement l'intermédiaire.

Quand un SSD passe l'arme à gauche sans crier gare (= mort subite), les données sont définitivement perdues. Le mien, un SSD de marque Emtec X150 de 480 Go vieux de 2 ans avec au compteur : presque 6000 heures, donne des signes de faiblesse (ralentissements et corruptions de données sans alerte SMART) qui fera l'objet d'un retour constructeur avec remplacement par un WD Velociraptor de 500 Go pour les données et SSD Crucial MX 100 de 128 Go pour le système

Pourquoi les pannes catastrophiques des mémoires flash (SSD) sont si difficiles à prévoir ?

Lors du Flash Media Summit 2016 d'août (à Santa Clara, CA), le vice-président de l'ingénierie de Soft RAID, Tim Standing, a parlé des défis autour de la prédiction des défaillances des SSD.

Tim a commencé par parler des efforts de Soft RAID pour rendre le stockage plus fiable : "En 2010, nous avons ajouté une fonctionnalité de prédiction des pannes de disque, qui utilisait les résultats d'une étude de Google sur 100 000 lecteurs de disque dur à support rotatif. Cette fonction peut avertir les utilisateurs des semaines ou des mois avant qu'un disque ne tombe en panne. La fonctionnalité a permis de prédire plus ou moins les trois quarts des pannes de disque, le reste des pannes se produisait sans aucun avertissement."

Le succès de Soft RAID dans la prédiction des pannes de disques sur supports rotatifs a incité Tim et son équipe à développer un système similaire pour les SSD : "Après avoir constaté la puissance de la prédiction des pannes, nous avons voulu développer la même fonctionnalité pour les SSD."

Pour ceux d'entre nous qui ne savent pas pourquoi les SSD ne peuvent pas utiliser le même processus que les disques durs pour la prédiction des pannes, Tim explique : "Lorsque les disques durs à support rotatif sont sur le point de tomber en panne, ils commencent à réallouer les secteurs et émettre des alertes SMART. Nous pouvons utiliser le nombre de secteurs réalloués comme indicateur de la défaillance imminente du disque ; plus le nombre de secteurs réalloués est élevé, plus le disque dur est proche de la défaillance. Malheureusement, cette technique ne fonctionne pas avec les SSD car ces derniers réaffectent les secteurs au cours de l'utilisation quotidienne. En effet, chaque fois qu'un bloc de mémoire flash cesse de fonctionner, le contrôleur réaffecte un autre bloc de mémoire flash pour le remplacer. Il n'est pas rare qu'un SSD sain ait des milliers de secteurs réaffectés."

Il fallait donc utiliser une autre technique pour prédire les défaillances des SSD, et Tim pensait que son équipe l'avait trouvée : "Nous avons été ravis de découvrir que les SSD contiennent un indicateur d'usure des supports comme l'un de leurs paramètres SMART."

Tim a ensuite décrit le fonctionnement de l'indicateur d'usure des supports : "Rappelez-vous que les SSD ont 10 à 20 % de mémoire flash supplémentaire (un SSD de 100 Go contient en fait 110 à 120 Go de mémoire flash). Cette mémoire flash supplémentaire est utilisée pour remplacer les blocs de mémoire flash qui s'usent à mesure que le SSD est utilisé. L'indicateur d'usure des supports affiche la quantité de mémoire flash supplémentaire encore disponible dans un SSD. Il va de 100 % lorsque le SSD est neuf à 0 % lorsque toute cette mémoire flash supplémentaire est épuisée."

Cependant, comme Tim l'a expliqué, l'indicateur d'usure des supports ne s'est pas avéré aussi utile que prévu : "Nous avions bon espoir que cet indicateur nous fournirait un indicateur prédictif de panne imminente. Il y a deux ans, nous avons intégré un mécanisme de surveillance dans Soft RAID. Depuis lors, nous n'avons vu aucun SSD tomber en panne parce que toute sa mémoire flash supplémentaire a été consommée. Tous les SSD qui sont tombés en panne l'ont été avec un indicateur d'usure des supports bien supérieur à 80 %. Nous essayons toujours de mettre au point un mécanisme fiable pour prédire le moment où les SSD tomberont en panne."

Après son exposé, Tim s'est entretenu avec Chris Bross de DriveSavers Data Recovery, Inc. qui a déclaré que son expérience était exactement la même. Les SSD tombent en panne de manière catastrophique et sans avertissement, et l'indicateur d'usure des supports n'est pas utile pour prédire quand ils tomberont en panne.

Article traduit Recover HDD et Soft Raid

Aucun commentaire :