Aller au contenu

Groupe dégradé, mais DSM refuse de réparer alors que disques sain


FTP

Messages recommandés

Bonjour,

 

J'ai un problème sur un groupe de stockage en RAID 1/Btrfs (dont le nom est "storage_master").

J'ai reçu 2 notifications me disant qu'il y avait un problème sur le 2nd disque :

  • - Le groupe de stockage 1 sur storage_master s'est dégradé (1/2). Le groupe de stockage 1 sur storage_master s'est dégradé (nombre total de disques : 2 ; nombre de disques actifs : 1). Les informations sur les disques en état anormal sont indiquées ci-dessous : Disque 2, Modèle: WD80EFAX-68KNBN0, Numéro de série: XXXXXXXX
  • - La partition système (Root) sur storage_master s'est dégradée (1/4)

 

J'ai donc testé le disque 2 avec 2 outils Western Digital (car ce sont des Red Plus 8To) et il s'avère que le disque est bon...

image.png.9091f7a5e29dbfd999394ca2e90da363.png

image.thumb.png.5d3e60e90d6d2f91d5d3fb1437575cd6.png

image.thumb.png.64bc23349f367d9aeddde2ce74281df8.png

Côté DSM, même son de cloche, le disque est bon...

image.png.cabde0a79cfbad8653c947eac1c06f51.png

 

Maintenant le pb c'est que DSM refuse de réparer le groupe sans ajouter un autre disque 8To (ce que je n'ai pas)...

image.thumb.png.f3a8ebc5d3a59c31fea8a047a25d5237.png

Donc comment faire ?

Si on ne peut pas "Réparer" le groupe, peut-on le recréer ?

Faut-il désactiver le disque 2 ? Peut-on supprimer le groupe de stockage (RAID 1) sans risque pour le recréer à partir du disque 1 immédiatement derrière ?

Faut-il formater le disque 2 pour faire croire à DSM qu'il peut l'utiliser et ainsi pouvoir lancer la réparation ?

Je ne trouve rien dans l'aide de Synology qui corresponde à ce cas de figure 😕

Le truc c'est qu'il faut bien que je ne lance rien qui vire les données du disque 1 qui est bon !!!

 

Merci d'avance.

 

P.S. : j'ai aussi ce message d'info sur le disque lui même...

image.thumb.png.b885396154c53065e1fda47f69c46d0e.png

Apparemment le disque aurait déjà été éjecté du groupe (sans être "Désactivé" pour autant), même si ça ne semble pas vraiment être le cas. Il apparaît toujours dans le groupe comme on le voit plus haut.

 

Modifié par FTP
Lien vers le commentaire
Partager sur d’autres sites

  • FTP a modifié le titre en Groupe dégradé, mais DSM refuse de réparer alors que disques sain

Bonjour FTP,

Question tu as quel type de nas ?

Ensuite as tu essayé de sortir le disques du nas et de la formater sur un PC pour ensuite le remonté ?

En dernier recours tu peux le tester avec badblock par contre cela peu finir de le "fingler" dans tous les cas il va marquer les secteur défectueux

ou faire un test de surface un peu plus pousser que l"utilitaire de WD.

 

Lien vers le commentaire
Partager sur d’autres sites

Est-ce que tu as essayé de faire ce qu'il te dit : Action > Désactiver le disque ?

Il y a 1 heure, FTP a dit :

Apparemment le disque aurait déjà été éjecté du groupe (sans être "Désactivé" pour autant), même si ça ne semble pas vraiment être le cas. Il apparaît toujours dans le groupe comme on le voit plus haut.

Il semble que non ....

Lien vers le commentaire
Partager sur d’autres sites

Il y a 3 heures, firlin a dit :

Question tu as quel type de nas ?

Un DS918+ avec juste 2 WD Red Plus 8To en RAID 1.

Il y a 3 heures, firlin a dit :

Ensuite as tu essayé de sortir le disques du nas et de la formater sur un PC pour ensuite le remonté ?

Pas encore. Cf. ci-dessous.

Il y a 2 heures, Kramlech a dit :

Est-ce que tu as essayé de faire ce qu'il te dit : Action > Désactiver le disque ?

Pas encore, c'est pour ça que je voulais des avis.

Ce que je veux surtout éviter c'est d'effacer les données du disque 1 par une mauvaise manip ou le choix d'une commande inappropriée.

Exemple (peut-être idiot, je sais pas) : si désactiver le disque veut dire qu'on ne pourra plus réparer le groupe, qu'il faudra le supprimer et le re-créer, mais le re-créer veut dire repasser par 2 formatages, donc 2 disques vides, alors c'est ce que je veux éviter. C'est la première fois qu'un pb de ce genre m'arrive et je suis pas spécialiste de DSM.

D'où mes questions pour savoir comment faire de manière sûr dans ce genre de cas.

J'ai aussi ouvert un ticket chez Synology, mais je n'aurais pas de réponse avant demain après midi. Si tout le monde était d'accord sur une procédure évidente ici, ça m'aurait évité d'attendre encore 24h.

Lien vers le commentaire
Partager sur d’autres sites

Le message adressé par DSM est pourtant très limpide. En gros, désactiver le disque (ce qui a pour effet de le sortir du groupe), et puisque votre NAS est extractible à chaud, sortir le disque et le remettre dans sont emplacement. DSM le considèrera comme un disque venant remplacer le défectueux et vous proposera de dépanner le groupe en y associant ce nouveau disque.

Je peux comprendre que vous ayez des appréhensions, mais la manipulation n'est pas supposée mettre en danger les données du disque sain. Cependant, il faut être conscient que toute manipulation sur les disques comporte des risques et c'est pour cette raison que Synology recommande avant toute opération de mettre les sauvegardes à jour.

Il vous faut donc commencer par faire cette mise à jour et par la suite vous pourrez sans risque lancer la procédure de reconstruction du groupe.

Lien vers le commentaire
Partager sur d’autres sites

Juste 2 autres infos :

Avant d'en arriver là, j'ai d'abord contacté WD pour connaître la procédure de test recommandée avant un éventuel échange du disque : et voilà leur réponse, un peu surprenante...

Citation

"je tiens à vous informer que les disques durs internes WD Red signalent parfois des erreurs lorsqu'ils sont utilisés dans des périphériques NAS tiers, sans être réellement défectueux. Afin de vous assurer qu'un disque interne est défectueux, je vous recommande de le connecter directement à votre ordinateur avec un câble SATA ou un adaptateur SATA vers USB et de le tester avec le logiciel WD Dashboard"

Donc on a peut-être droit à ça. Le disque est bon, mais un pb de dialogue entre le disque et le NAS (ils expliquent pas quel est réellement le pb). Les Red sont quand même spécialisés NAS, ils sont approuvés par Synology et on n'entend pas parler un pb général d'incompatibilité, donc je sais pas quoi penser de leur commentaire.

 

Et ensuite, quand sur DSM on regarde les infos sur la santé du disque, j'ai ça...

image.thumb.png.d1d105cd2d9edc57e3fcd7fcdbf7e15d.png

Il y a un nombre important de réidentifications du disque (alors même que le disque 1 en a 0).

Donc à quoi ça correspond, est-ce que c'est lié ou pas, je sais pas.

 

il y a 17 minutes, Mic13710 a dit :

En gros, désactiver le disque (ce qui a pour effet de le sortir du groupe), et puisque votre NAS est extractible à chaud, sortir le disque et le remettre dans sont emplacement. DSM le considèrera comme un disque venant remplacer le défectueux et vous proposera de dépanner le groupe en y associant ce nouveau disque.

Je peux comprendre que vous ayez des appréhensions, mais la manipulation n'est pas supposée mettre en danger les données du disque sain. Cependant, il faut être conscient que toute manipulation sur les disques comporte des risques et c'est pour cette raison que Synology recommande avant toute opération de mettre les sauvegardes à jour.

Il vous faut donc commencer par faire cette mise à jour et par la suite vous pourrez sans risque lancer la procédure de reconstruction du groupe.

Ok. Merci.

J'ai déjà mis à jour les sauvegardes.

Modifié par FTP
Lien vers le commentaire
Partager sur d’autres sites

Ok, ce matin j'ai donc déconnecté le lecteur, rebooté le NAS et lancé la réparation. Il y en a pour entre 12 et 14h.

En revanche, il semble bien qu'il y ait un problème de fond à régler.
En cherchant un peu plus, je me suis aperçu que la dégradation du groupe s'est déclenchée à l'heure exacte de la première des 217 réidentifications du disque 2.

En effet, d'un côté les 2 notifications par email de la dégradation du groupe ont été envoyées par le NAS le 19/01 à 19h36.
Et de l'autre côté, j'ai 0 réidentifications ces 2 dernières années, puis subitement 217 à partir du 19/01 à 19h36...

image.png.e7f807f122f4aea46a00599e4158fd64.png

Donc la dégradation du groupe de stockage a très clairement un lien avec ces réidentifications subites.
Tout se déclenche dans la même minute.

Et donc quel est le problème ?
Comment le règle t-on et s'assure t-on que ça ne revienne pas ?

Je ne trouve rien dans l'aide car tout ce qu'on demande, c'est de faire des tests SMART et de changer le disque s'il a un problème.
https://kb.synology.com/fr-fr/DSM/tutorial/Drive_reidentification_count_increased

Mais mon disque est donné sain à tous les tests SMART étendus et même par DSM. Or l'aide ne dit rien dans le cas ou le disque est sain (ni cause, ni solution). Et je doute que WD accepte de changer un disque qui passe tous les tests SMART sans pb.

Merci d'avance.

P.S. : je respecte aussi tous ces conseils pour éviter les pb :
https://kb.synology.com/fr-fr/DSM/tutorial/How_to_prevent_volume_crash

- Mes disques sont dans la liste des disques compatibles
- J'ai programmé des tests SMART rapides et étendus qui n'ont jamais rien détecté en 2 ans
- J'ai toutes les alertes activées et j'ai jamais rien reçu
- J'ai 4Go de RAM supplémentaire, mais c'est de la RAM Synology
- Et mon NAS est protégé par un onduleur

Modifié par FTP
Lien vers le commentaire
Partager sur d’autres sites

Votre disque semble effectivement avoir un souci.

Les tests smart même étendus ne sont pas la garantie qu'un disque est exempt de problème. Les seuls tests valables sont les tests étendus effectués avec le logiciel du constructeur (c'est ce que WD vous a demandé de faire). Vous pouvez aussi lancer des tests approfondis à partir du NAS soit des écritures de zéros ou plus dur, avec badblocks. Ces deux tests doivent se faire en ssh et demandent une certaine rigueur dans les commandes à lancer pour ne pas effacer le disque sain.

Lien vers le commentaire
Partager sur d’autres sites

Hum... j'avais apparemment pas lu à fond l'article sur les réidentifications. En fait, l'autre solution si le disque est sain, c'est que le NAS ou au moins 1 slot du NAS ait un problème. Et après un nouveau test qui nécessite un autre disque sain (non suspect), si le problème vient bien du slot, ils conseillent de changer le NAS 😕

Citation

 

c. Consultez le graphique du nombre de réidentifications du disque :

  • Si le nombre augmente pour le disque défectueux suspecté, le problème peut venir du disque. Nous vous recommandons de remplacer le disque dur pour éviter une éventuelle perte de données. Vous pouvez vous reporter à la section Remplacement du disque défectueux pour plus d'informations.
  • Si le nombre augmente pour le disque sain dans l'emplacement de disque présumé défectueux, le problème peut venir de l'emplacement de disque. Nous vous recommandons de sauvegarder toutes vos données et de remplacer votre Synology NAS.

 

Problème, les disques sont encore sous garantie (01/2021), mais pas le NAS (09/2017).

Bref, je vais déjà voir si après la réparation du groupe les pb de réidentification reviennent.
Si c'est le cas, je ferai leur test de déplacer le disque 2 sur un autre slot et tester un disque sain sur le slot 2. Et on verra bien ce que ça donne, qui est fautif.

L'enseignement c'est que d'après cette page d'aide, ce genre de problème ne vient pas forcément du disque.

Modifié par FTP
Lien vers le commentaire
Partager sur d’autres sites

Rejoindre la conversation

Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.

Invité
Répondre à ce sujet…

×   Collé en tant que texte enrichi.   Coller en tant que texte brut à la place

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.

×
×
  • Créer...

Information importante

Nous avons placé des cookies sur votre appareil pour aider à améliorer ce site. Vous pouvez choisir d’ajuster vos paramètres de cookie, sinon nous supposerons que vous êtes d’accord pour continuer.