[Résolu] Problème raid

par **Laurent.M** » 22 Sep 2009 20:38

Bonjour

Je viens de recevoir un mail me disant :

Code: Tout sélectionner: A Fail event has been detected on md device /dev/md1.

Pas bien çà.

J'ai donc effectuer cette commande :

cat /proc/mdstat , voici la réponse :

Code: Tout sélectionner: Personalities : [raid1] [raid5] md2 : active raid5 sda2[0] sdd2[3] sdc2[2] sdb2[4](F) 1464837888 blocks level 5, 256k chunk, algorithm 2 [4/3] [U_UU] md1 : active raid1 sda1[0] sdd1[3] sdc1[2] sdb1[4](F) 104320 blocks [4/3] [U_UU] unused devices: <none>

Les blocks sont plus que différents !

Pour plus de détails, j'ai fais :

Code: Tout sélectionner: mdadm --detail /dev/md1

Réponse :

Code: Tout sélectionner: Version : 00.90.01 Creation Time : Sun Jul 12 23:39:41 2009 Raid Level : raid1 Array Size : 104320 (101.89 MiB 106.82 MB) Device Size : 104320 (101.89 MiB 106.82 MB) Raid Devices : 4 Total Devices : 4 Preferred Minor : 1 Persistence : Superblock is persistent Update Time : Tue Sep 22 02:38:31 2009 State : clean, degraded Active Devices : 3 Working Devices : 3 Failed Devices : 1 Spare Devices : 0 UUID : 6d906497:2f9b9808:4f3227a2:d49a8163 Events : 0.1913 Number Major Minor RaidDevice State 0 8 1 0 active sync /dev/sda1 1 0 0 - removed 2 8 33 2 active sync /dev/sdc1 3 8 49 3 active sync /dev/sdd1 4 8 17 - faulty /dev/sdb1

Ensuite :

madam --detail /dev/md2

Réponse :

Code: Tout sélectionner: Version : 00.90.01 Creation Time : Sun Jul 12 23:39:41 2009 Raid Level : raid5 Array Size : 1464837888 (1396.98 GiB 1499.99 GB) Device Size : 488279296 (465.66 GiB 500.00 GB) Raid Devices : 4 Total Devices : 4 Preferred Minor : 2 Persistence : Superblock is persistent Update Time : Tue Sep 22 20:31:40 2009 State : clean, degraded Active Devices : 3 Working Devices : 3 Failed Devices : 1 Spare Devices : 0 Layout : left-symmetric Chunk Size : 256K UUID : c574176f:92de60df:a0058178:84a4d41c Events : 0.2872494 Number Major Minor RaidDevice State 0 8 2 0 active sync /dev/sda2 1 0 0 - removed 2 8 34 2 active sync /dev/sdc2 3 8 50 3 active sync /dev/sdd2 4 8 18 - faulty /dev/sdb2

Dans les 2 cas, le sbb est manquant.

Puis je le rajouter en faisant :

Code: Tout sélectionner: mdadm /dev/md2 --add /dev/sdb1

Code: Tout sélectionner: mdadm /dev/md2 --add /dev/sdb2

et verifier la reconstruction avec :

Code: Tout sélectionner: cat /proc/mdstat

Désolé de ces questions, mais j'ai peur de faire une boulette

Merci
Laurent

par **Gaston** » 22 Sep 2009 20:54

Bonsoir,

Laurent.M a écrit:Puis je le rajouter en faisant :
Code: Tout sélectionner
mdadm /dev/md2 --add /dev/sdb1

Code: Tout sélectionner
mdadm /dev/md2 --add /dev/sdb2

ben non

, lit attentivement, md1 et md2 sont des devices raid (grappe raid) distincts:!:
De plus avant de re joindre un disque à la grappe, il faut qu'il en soit retiré

Code: Tout sélectionner: mdadm /dev/md1 --remove /dev/sdb1 mdadm /dev/md2 --remove /dev/sdb2 mdadm /dev/md1 --add /dev/sdb1 mdadm /dev/md2 --add /dev/sdb2

un conseil, fais très attention à ce que tu tapes, 8-[

il y a au moins deux fautes de frappe dans ton, post, une sans conséquences, la deuxième (que j'ai relevée) destructrice :-&

Sinon pour revenir au pourquoi de la chose : ton disque sdb a eu un problème, soit c'était juste un coup de chaude, de tension, ..., et effectivement cela va repartir sans soucis, soit c'est un problème plus conséquent. Vérifie les erreur avec "smartctl" et envisage un remplacement (la même chose qu'ici, sauf qu'avant de faire le "--add" on change le disque physique)

G.

par **Laurent.M** » 22 Sep 2009 22:37

@Gaston

Merci de cette réponse. Je ne sais pas ce qu'il s'est passé. Les disques sont de Juillet et ont un ventilo de 12 cm sur la figure en permanence. Avec mon thermométre laser, la T° est de 27.5°C ou 27.7 °C.

Je ne suis pas très doué en commande Raid d'ou mon post ... j'ai eu raison je crois.

Concernant ta remarque sur le fait de retirer le disque, je pensais que celui-ci était déjà retiré quand j'ai lu ceci (4 lignes avant la fin):

1 0 0 - removed

Me confirme tu que je dois bien exécuter ses commandes :

Code: Tout sélectionner: mdadm /dev/md1 --remove /dev/sdb1 mdadm /dev/md2 --remove /dev/sdb2

avant

Code: Tout sélectionner: mdadm /dev/md1 --add /dev/sdb1 mdadm /dev/md2 --add /dev/sdb2

Merci pour ton aide
Laurent

PS : je vais taper les commandes bien lentement et relire deux fois avant de presser la touche "enter"

par **Gaston** » 23 Sep 2009 14:32

Bonjour,
oui ce sont les commandes à taper.
je ne connaît pas la signification du terme "removed" dans le "mdadm --detail", mais je suis presque certain que cela n'a rien à voir avec ce que l'on veut faire ... à chercher pour la culture
Tu peux néanmoins _sans_ risque dans le contexte qui nous concerne , essayer de taper la commande --add avant d'avoir fait le remove, au pire, tu auras un message d'erreur comme dans le post cité, au mieux

, c'est ce qu'il fallait faire

G.

Avec mon thermométre laser, la T° est de 27.5°C ou 27.7 °C.

pour ma culture personnelle, peux me donner cette température en corrélation avec celle de la commande smartctl -a /dev/sdb

par **Laurent.M** » 23 Sep 2009 21:52

Ok, je fais les commandes annoncées.

Pour la température voici ce que donne le : smartctl -a /dev/sda (j'ai mis le sda car le sdb est en vrac pour l'instant).

Je ne vois pas d'indication de température, mais il me semble qu'il faut configurer des lmsensors, chose que je n'ai pas fait. D'ailleurs si c'est simple à mettre en oeuvre, je peux faire le test.

Voici un copier - coller de la commande :

Code: Tout sélectionner: smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Device Model: WDC WD5000AAKS-00A7B2 Serial Number: WD-WCASY5015065 Firmware Version: 01.03B01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database [for details use: -P showall] ATA Version is: 8 ATA Standard is: Exact ATA specification draft version not indicated Local Time is: Wed Sep 23 21:51:05 2009 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x84) Offline data collection activity was suspended by an interrupting command from host. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (11160) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 131) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0027 216 175 021 Pre-fail Always - 2191 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 45 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2058 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 43 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 42 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 45 194 Temperature_Celsius 0x0022 117 109 000 Old_age Always - 30 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 2032 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

Laurent

par **Laurent.M** » 23 Sep 2009 22:07

Bon, je viens de faire les commandes.

Il faut effectivement retirer le disque avant de l'ajouter. L'indication removed doit avoir une autre signification.

Une fois le disques remis, faut-il ajouter une autre commande, car le, rien ne se passe.

Le disque ne se reconstruit pas.

Laurent

par **Laurent.M** » 23 Sep 2009 22:16

Bon après un reboot du serveur, je suis retourné dans l'option 5 de l'interface sous admin.

Le système à détecté un nouveau disque et me demandé si je voulais l'ajouter. J'ai répondu : oui.

Maintenant, la resynchonisation est en cours.

Laurent

par **Gaston** » 24 Sep 2009 09:00

Laurent.M a écrit:smartctl -a /dev/sda (j'ai mis le sda car le sdb est en vrac pour l'instant).

pas encourageant, si smartctl voit pas le disque

Une fois le disques remis, faut-il ajouter une autre commande, car le, rien ne se passe.

non, mais si smartctl ne voyait pas le disque, .... j'imagine pas trop ce qui a pu être rajouté

Bon après un reboot du serveur

Mauvais automatisme :twisted:

, tant mieux si c'est tombé en marche, le loto c'est 2€
mais bon moi je changerai le disque :-#

G.

par **Laurent.M** » 24 Sep 2009 09:06

Je vous donne des infos.

Quand j'ai quitté le serveur hier soir, la reconstruction du raid était à 7%.

Ce matin, le serveur ne répond plus à rien. Putty m'envoie des gros mots : pas de host :evil:

Ce soir, je vais brancher un clavier et un ecran sur le serveur pour en savoir plus.

Je pense que le disque à rendu l'âme !!

Laurent

par **Laurent.M** » 24 Sep 2009 20:17

Aie Aie

J'ai un magnifique :

Kernel panic - not syncing: Attempted to kill init!

Euh la, pour le coup je suis aussi en panic :shock:

J'ai debranche le disque suppose etre la l'origine du plantage, mais au redémarrage, SME me dit qu'il ne trouve pas un disque et me demande d'appuyer sur une touche. Il se charge alors un écran illisible avec une sorte de menu.
Quelque soit l'option (que je n'arrive pas à lire), je reviens à l'écran précédant.

Bref, je suis dans le pétrin.

Laurent

par **Laurent.M** » 24 Sep 2009 22:08

Bon,

je teste plein de truc que je trouve à gauche et droite sur ce forum, rien ne semble fonctionner.

Le disque qui doit être défectueux est logiquement le sdb. Quand je debranche ce disque du deuxieme port sata, SME plante même en mode rescue.
J'ai donc testé avec tous les disques, un à un. Le résultat est le même ... crash en mode rescue

Du coup, je ne suis plus sûr que le HDD defectueux soit le second.

Laurent

par **Laurent.M** » 24 Sep 2009 23:18

J'ai bien identifier le hdd défectueux avec la commande fdisk -l en mode rescue. Le disque est maintenant deconnecté.

Je voudrais dire au SME qu'il manque le disque defectueux en le retirant de la grappe RAID, seulement toutes les commandes que je tapes avec mdadm me renvoient un :

cannot get array info for /dev/md1

Que faut-il faire ?

Laurent

par **Laurent.M** » 25 Sep 2009 08:29

Je sais plus quoi faire, je pars acheter un nouveau HDD.

Mais comment le faire démarrer une fois mis dans le serveur ?

Laurent

par **Gaston** » 25 Sep 2009 10:52

Bonjour,
cette dernière option me semble la bonne.
La démarche standard est de brancher le disque et de redémarrer le système (en mode normal).

Si le système ne détecte pas tout de suite le disque, ou propose de le réintégrer (je ne connait pas le comportement de SME dans ce cas précis), dans un premier temps l'important n'est pas forcément de reconstruire le raid.
Assures toi que le système redémarre correctement en mode "raid dégradé", et que tu vois correctement ton disque (dans /var/log/messages ou via "dmesg" , via la commande "fdisk -l" , il est normal d'avoir des erreurs sur les md* ...)

Quand tout est OK de ce côté, si besoin refait une sauvegarde, on ne sait jamais, et retourne dans le menu "gérer la redondance" tu devrais avoir la possibilité de rajouter ton disque.
Si tu préfères , fais le à la main (mdadm --add)

Si ça ne passe pas tout seul, redonne le résultat des commandes "cat /proc/mdstat" et "mdadm --detail /dev/md1" et "mdadm --detail /dev/md2"

G.

par **Gaston** » 25 Sep 2009 11:49

Une remarque que je me fait ... tout à coup
si tu n'as pas de sauvegarde récente, il peu être judicieux de procéder à celle-ci avant de continuer
- mettre les 3 disques sains dans un autre serveur (ou démarrer avec un linuxcdrescue et utiliser un disque externe pour la sauvegarde)
- démarrer le device raid en mode dégradé

Code: Tout sélectionner: mdadm --assemble /dev/md4 /dev/sda1 /dev/sdc1 /dev/sdd1 --run

l'option "--run" permet d'activer le raid en mode dégradé, sinon, il ne veut pas, il identifie qu'il devrait y avoir 4 disques ...
- monter le device (mount /dev/md4 /mon_point_de_montage)
- sauvegarder /mont_point_de_montage
- arrêter le device raid (mdadm --stop /dev/md4) et remettre les disques dans la machine d'origine

d'autre part, il apparaît que tu n'as pas de disque de spare, était-ce voulu ? (dans le cas présent, il n'y a pas de perte de données, tu as un raid5 sur 4 disques, tu en as perdu un, c'est dommage, mais tu utilises à fonds les mécanismes de raid, donc pas de soucis, mais plus de plan de replis ! ).

G.
[edit] correction de la commande pour la mettre en adéquation avec le contexte réel du problème [/edit]

[Résolu] Problème raid

[Résolu] Problème raid

Re: Problème raid

Qui est en ligne ?