[résolu] DegradedArray. (raid cassé)

par **shwing** » 06 Oct 2007 11:28

Bonjour tout le monde,

J'ai un soucis de raid, il y a un post qui traite exactement du même problème, mais avec de toute petite différence de 'numéro'. Du fait que le raid, me laisse raide, je poste afin d'y trouvé de l'aide.

Ma configue est: 2 disques en raid pour SME et un autre pour une ibay particulière. Je n'ai pas de SCSI.

/var/log/messages

Code: Tout sélectionner: Oct 6 10:08:37 sme init: Entering runlevel: 7 Oct 6 10:08:44 sme esmith::event[2925]: Processing event: bootstrap-console-save Oct 6 10:08:44 sme kernel: md: md3 stopped. Oct 6 10:08:37 sme net.agent[2176]: remove event not handled Oct 6 10:08:44 sme esmith::event[2925]: Running event handler: /etc/e-smith/events/bootstrap-console-save/S00initialize-default-databases Oct 6 10:08:44 sme kernel: md: bind<hdb2> Oct 6 10:08:37 sme net.agent[2166]: remove event not handled Oct 6 10:08:44 sme kernel: md: bind<hda2> Oct 6 10:08:41 sme microcode_ctl: Démarrage de microcode_ctl succeeded Oct 6 10:08:44 sme kernel: md: kicking non-fresh hdb2 from array! Oct 6 10:08:44 sme kernel: md: unbind<hdb2> Oct 6 10:08:44 sme kernel: md: export_rdev(hdb2) Oct 6 10:08:44 sme kernel: raid1: raid set md3 active with 1 out of 2 mirrors Oct 6 10:08:44 sme kernel: md: md2 stopped. Oct 6 10:08:44 sme kernel: md: bind<hdb3> Oct 6 10:08:44 sme kernel: md: bind<hda3> Oct 6 10:08:44 sme kernel: raid1: raid set md2 active with 2 out of 2 mirrors Oct 6 10:08:44 sme kernel: kjournald starting. Commit interval 5 seconds Oct 6 10:08:44 sme kernel: EXT3-fs: mounted filesystem with ordered data mode. Oct 6 10:08:44 sme kernel: SCSI subsystem initialized

Et oui il y a kicking non-fresh hdb2 from array!

raidmonitor current:

Code: Tout sélectionner: @4000000046e323b218202b9c Event: SparesMissing, Device: /dev/md3, Member: @4000000046e6e89d2d908724 Event: SparesMissing, Device: /dev/md2, Member: @4000000046e6e89d3723035c Event: SparesMissing, Device: /dev/md1, Member: @4000000046e6e89e04e351e4 Event: SparesMissing, Device: /dev/md3, Member: @4000000046fad15a34c53184 Event: SparesMissing, Device: /dev/md2, Member: @4000000046fad15b067abeac Event: SparesMissing, Device: /dev/md1, Member: @4000000046fad15b132bf38c Event: SparesMissing, Device: /dev/md3, Member: @4000000046fb473a18f83064 Event: Fail, Device: /dev/md3, Member: @400000004701707e08532444 Event: SparesMissing, Device: /dev/md2, Member: @400000004701707e13039f54 Event: SparesMissing, Device: /dev/md1, Member: @400000004701707e21572ddc Event: DegradedArray, Device: /dev/md3, Member: @400000004701707f0030aafc Event: SparesMissing, Device: /dev/md3, Member: @400000004705fbce03903d34 Event: SparesMissing, Device: /dev/md2, Member: @400000004705fbce104a99d4 Event: SparesMissing, Device: /dev/md1, Member: @400000004705fbce23e9cf3c Event: DegradedArray, Device: /dev/md3, Member: @400000004705fbcf04fef804 Event: SparesMissing, Device: /dev/md3, Member: @40000000470742cb13af1dac Event: SparesMissing, Device: /dev/md2, Member: @40000000470742cb248ddb54 Event: SparesMissing, Device: /dev/md1, Member: @40000000470742cb379dd8ac Event: DegradedArray, Device: /dev/md3, Member: @40000000470742cc1b6ea6d4 Event: SparesMissing, Device: /dev/md3, Member:

Le post cité plus haut où Gaston dit:

La solution est donc de remettre tout à plat (il y a des lignes de commandes en trop mais bon, c'est kdo bonux)

Code: Tout sélectionner: mdadm --set-faulty /dev/md1 /dev/hdb1 mdadm --remove /dev/md1 /dev/hdb1 mdadm --set-faulty /dev/md2 /dev/hdb2 mdadm --remove /dev/md2 /dev/hdb2 ### en plus rapide : mdadm -f /dev/md1 /dev/hdb1 -r /dev/hdb1 ### et mdadm -f /dev/md2 /dev/hdb2 -r /dev/hdb2 sfdisk -d /dev/hda > sfdisk_hda.output sfdisk /dev/hdb < sfdisk_hda.output mdadm --add /dev/md1 /dev/hdb1 mdadm --add /dev/md2 /dev/hdb2

En fait c'est d'apdapter ce qui précède pour ma config...

Autre question, avez-vous une idée du pourquoi du comment, pourquoi le raid se dégrade ainsi ?

Merci.

par **Gaston** » 06 Oct 2007 12:40

Bonjour,
as-tu essayé via le server manager de rejoindre le disk au raid (je sait à quoi la manip ressemble, mais si elle existe, c'est la bonnne).
A défaut, au vu des informations fournies, un simple

Code: Tout sélectionner: mdadm --add /dev/md3 /dev/hdb2

devrait suffire à remettre les choses dans l'ordre.

Pour ce qui est de ces erreurs, je ne peux qu'apporter mes constatations : disques IDE, problèmes fréquents, disque SCSI pas de soucis (so far).
Pour les raisons elle peuvent être multiples:
- qualité de l'alimentation
- qualité du système de refroidissement
- qualité du disque
- qualité des connexions...
les constatations montrent en effet souvent ce genre d'erreur : une seule des partitions reporte une erreur (celle des datas , certe, l'usage des deux autres est plus faible (swap et / ) quoique ... et c'est ce qui m'amène à mettre en cause les connexions et l'alimentation.

G.

par **shwing** » 06 Oct 2007 21:15

Code: Tout sélectionner: A RebuildFinished event has been detected on md device /dev/md3.

Qu'un mot : MERCI

par **shwing** » 17 Déc 2007 12:06

De nouveau j'ai du relancer la commande : mdadm --add /dev/md3 /dev/sda2

Depuis la dernière fois, les HD ont été changés.

Je pense que je vais changer d'alim...

Mes graphs de température, montre mes disques à une moyenne de 40°C. Vous trouvé ceci trop Hot ?

par **Gaston** » 17 Déc 2007 16:53

non, cela me semble dans la norme (ci dessous un SCSI de course et un ide 2,5")

Code: Tout sélectionner: [root@srv34 ~]# smartctl -a /dev/sda smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen Home page is http://smartmontools.sourceforge.net/ Device: IBM DPSS-336950M Version: S96H Serial number: BZ140033 Device type: disk Transport protocol: Fibre channel (FCP-2) Local Time is: Mon Dec 17 15:35:01 2007 CET Device supports SMART and is Enabled Temperature Warning Disabled or Not Supported SMART Health Status: OK Current Drive Temperature: 39 C Drive Trip Temperature: 85 C Manufactured in week 51 of year 2000 Current start stop count: 171 times ... [root@mul94 ~]# smartctl -a /dev/hdb | grep -i temp 194 Temperature_Celsius 0x0002 144 144 000 Old_age Always - 38 (Lifetime Min/Max 17/56) [root@mul94 ~]#

par **shwing** » 17 Déc 2007 16:55

C'est décidé, je change d'alime ce soir !
Merci gaston pour cette nouvelle commande : ))

[résolu] DegradedArray. (raid cassé)

[résolu] DegradedArray. (raid cassé)

Qui est en ligne ?