[résolu] DegradedArray. (raid cassé)

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server

Modérateur: modos Ixus

[résolu] DegradedArray. (raid cassé)

Messagepar shwing » 06 Oct 2007 11:28

Bonjour tout le monde,

J'ai un soucis de raid, il y a un post qui traite exactement du même problème, mais avec de toute petite différence de 'numéro'. Du fait que le raid, me laisse raide, je poste afin d'y trouvé de l'aide.

Ma configue est: 2 disques en raid pour SME et un autre pour une ibay particulière. Je n'ai pas de SCSI.

Image

/var/log/messages
Code: Tout sélectionner
Oct  6 10:08:37 sme init: Entering runlevel: 7
Oct  6 10:08:44 sme esmith::event[2925]: Processing event: bootstrap-console-save 
Oct  6 10:08:44 sme kernel: md: md3 stopped.
Oct  6 10:08:37 sme net.agent[2176]: remove event not handled
Oct  6 10:08:44 sme esmith::event[2925]: Running event handler: /etc/e-smith/events/bootstrap-console-save/S00initialize-default-databases
Oct  6 10:08:44 sme kernel: md: bind<hdb2>
Oct  6 10:08:37 sme net.agent[2166]: remove event not handled
Oct  6 10:08:44 sme kernel: md: bind<hda2>
Oct  6 10:08:41 sme microcode_ctl: Démarrage de microcode_ctl succeeded
Oct  6 10:08:44 sme kernel: md: kicking non-fresh hdb2 from array!
Oct  6 10:08:44 sme kernel: md: unbind<hdb2>
Oct  6 10:08:44 sme kernel: md: export_rdev(hdb2)
Oct  6 10:08:44 sme kernel: raid1: raid set md3 active with 1 out of 2 mirrors
Oct  6 10:08:44 sme kernel: md: md2 stopped.
Oct  6 10:08:44 sme kernel: md: bind<hdb3>
Oct  6 10:08:44 sme kernel: md: bind<hda3>
Oct  6 10:08:44 sme kernel: raid1: raid set md2 active with 2 out of 2 mirrors
Oct  6 10:08:44 sme kernel: kjournald starting.  Commit interval 5 seconds
Oct  6 10:08:44 sme kernel: EXT3-fs: mounted filesystem with ordered data mode.
Oct  6 10:08:44 sme kernel: SCSI subsystem initialized


Et oui il y a kicking non-fresh hdb2 from array!

raidmonitor current:
Code: Tout sélectionner
@4000000046e323b218202b9c Event: SparesMissing, Device: /dev/md3, Member:
@4000000046e6e89d2d908724 Event: SparesMissing, Device: /dev/md2, Member:
@4000000046e6e89d3723035c Event: SparesMissing, Device: /dev/md1, Member:
@4000000046e6e89e04e351e4 Event: SparesMissing, Device: /dev/md3, Member:
@4000000046fad15a34c53184 Event: SparesMissing, Device: /dev/md2, Member:
@4000000046fad15b067abeac Event: SparesMissing, Device: /dev/md1, Member:
@4000000046fad15b132bf38c Event: SparesMissing, Device: /dev/md3, Member:
@4000000046fb473a18f83064 Event: Fail, Device: /dev/md3, Member:
@400000004701707e08532444 Event: SparesMissing, Device: /dev/md2, Member:
@400000004701707e13039f54 Event: SparesMissing, Device: /dev/md1, Member:
@400000004701707e21572ddc Event: DegradedArray, Device: /dev/md3, Member:
@400000004701707f0030aafc Event: SparesMissing, Device: /dev/md3, Member:
@400000004705fbce03903d34 Event: SparesMissing, Device: /dev/md2, Member:
@400000004705fbce104a99d4 Event: SparesMissing, Device: /dev/md1, Member:
@400000004705fbce23e9cf3c Event: DegradedArray, Device: /dev/md3, Member:
@400000004705fbcf04fef804 Event: SparesMissing, Device: /dev/md3, Member:
@40000000470742cb13af1dac Event: SparesMissing, Device: /dev/md2, Member:
@40000000470742cb248ddb54 Event: SparesMissing, Device: /dev/md1, Member:
@40000000470742cb379dd8ac Event: DegradedArray, Device: /dev/md3, Member:
@40000000470742cc1b6ea6d4 Event: SparesMissing, Device: /dev/md3, Member:



Le post cité plus haut où Gaston dit:

La solution est donc de remettre tout à plat (il y a des lignes de commandes en trop mais bon, c'est kdo bonux)
Code: Tout sélectionner
mdadm --set-faulty /dev/md1 /dev/hdb1
mdadm --remove /dev/md1 /dev/hdb1
mdadm --set-faulty /dev/md2 /dev/hdb2
mdadm --remove /dev/md2 /dev/hdb2
### en plus rapide  : mdadm -f /dev/md1 /dev/hdb1 -r /dev/hdb1
### et     mdadm -f /dev/md2 /dev/hdb2 -r /dev/hdb2
sfdisk -d /dev/hda > sfdisk_hda.output
sfdisk /dev/hdb < sfdisk_hda.output
mdadm --add /dev/md1 /dev/hdb1
mdadm --add /dev/md2 /dev/hdb2


En fait c'est d'apdapter ce qui précède pour ma config...



Autre question, avez-vous une idée du pourquoi du comment, pourquoi le raid se dégrade ainsi ?

Merci.
Dernière édition par shwing le 07 Oct 2007 22:16, édité 1 fois au total.
Avatar de l’utilisateur
shwing
Amiral
Amiral
 
Messages: 1246
Inscrit le: 14 Mars 2004 01:00
Localisation: GE/CH

Messagepar Gaston » 06 Oct 2007 12:40

Bonjour,
as-tu essayé via le server manager de rejoindre le disk au raid (je sait à quoi la manip ressemble, mais si elle existe, c'est la bonnne).
A défaut, au vu des informations fournies, un simple
Code: Tout sélectionner
mdadm --add /dev/md3 /dev/hdb2
devrait suffire à remettre les choses dans l'ordre.

Pour ce qui est de ces erreurs, je ne peux qu'apporter mes constatations : disques IDE, problèmes fréquents, disque SCSI pas de soucis (so far).
Pour les raisons elle peuvent être multiples:
- qualité de l'alimentation
- qualité du système de refroidissement
- qualité du disque
- qualité des connexions...
les constatations montrent en effet souvent ce genre d'erreur : une seule des partitions reporte une erreur (celle des datas , certe, l'usage des deux autres est plus faible (swap et / ) quoique ... et c'est ce qui m'amène à mettre en cause les connexions et l'alimentation.

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar shwing » 06 Oct 2007 21:15

Code: Tout sélectionner
A RebuildFinished event has been detected on md device /dev/md3.


Qu'un mot : MERCI
Avatar de l’utilisateur
shwing
Amiral
Amiral
 
Messages: 1246
Inscrit le: 14 Mars 2004 01:00
Localisation: GE/CH

Messagepar shwing » 17 Déc 2007 12:06

De nouveau j'ai du relancer la commande : mdadm --add /dev/md3 /dev/sda2

Depuis la dernière fois, les HD ont été changés.

Je pense que je vais changer d'alim...

Mes graphs de température, montre mes disques à une moyenne de 40°C. Vous trouvé ceci trop Hot ?
Avatar de l’utilisateur
shwing
Amiral
Amiral
 
Messages: 1246
Inscrit le: 14 Mars 2004 01:00
Localisation: GE/CH

Messagepar Gaston » 17 Déc 2007 16:53

non, cela me semble dans la norme (ci dessous un SCSI de course et un ide 2,5")
Code: Tout sélectionner
[root@srv34 ~]# smartctl -a /dev/sda
smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

Device: IBM      DPSS-336950M     Version: S96H
Serial number:         BZ140033
Device type: disk
Transport protocol: Fibre channel (FCP-2)
Local Time is: Mon Dec 17 15:35:01 2007 CET
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
SMART Health Status: OK

Current Drive Temperature:     39 C
Drive Trip Temperature:        85 C
Manufactured in week 51 of year 2000
Current start stop count:      171 times
...
[root@mul94 ~]# smartctl -a /dev/hdb | grep -i temp
194 Temperature_Celsius     0x0002   144   144   000    Old_age   Always       -       38 (Lifetime Min/Max 17/56)
[root@mul94 ~]#
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar shwing » 17 Déc 2007 16:55

C'est décidé, je change d'alime ce soir !
Merci gaston pour cette nouvelle commande : ))
Avatar de l’utilisateur
shwing
Amiral
Amiral
 
Messages: 1246
Inscrit le: 14 Mars 2004 01:00
Localisation: GE/CH


Retour vers E-Smith / SME Server

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 1 invité

cron