[Résolu] Problème raid

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server

Modérateur: modos Ixus

[Résolu] Problème raid

Messagepar Laurent.M » 22 Sep 2009 20:38

Bonjour

Je viens de recevoir un mail me disant :
Code: Tout sélectionner
A Fail event has been detected on md device /dev/md1.

Pas bien çà. :(

J'ai donc effectuer cette commande :

cat /proc/mdstat , voici la réponse :

Code: Tout sélectionner
Personalities : [raid1] [raid5]
md2 : active raid5 sda2[0] sdd2[3] sdc2[2] sdb2[4](F)
      1464837888 blocks level 5, 256k chunk, algorithm 2 [4/3] [U_UU]

md1 : active raid1 sda1[0] sdd1[3] sdc1[2] sdb1[4](F)
      104320 blocks [4/3] [U_UU]

unused devices: <none>


Les blocks sont plus que différents !

Pour plus de détails, j'ai fais :
Code: Tout sélectionner
mdadm --detail /dev/md1


Réponse :
Code: Tout sélectionner
        Version : 00.90.01
  Creation Time : Sun Jul 12 23:39:41 2009
     Raid Level : raid1
     Array Size : 104320 (101.89 MiB 106.82 MB)
    Device Size : 104320 (101.89 MiB 106.82 MB)
   Raid Devices : 4
  Total Devices : 4
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Tue Sep 22 02:38:31 2009
          State : clean, degraded
Active Devices : 3
Working Devices : 3
Failed Devices : 1
  Spare Devices : 0

           UUID : 6d906497:2f9b9808:4f3227a2:d49a8163
         Events : 0.1913

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       1       0        0        -      removed
       2       8       33        2      active sync   /dev/sdc1
       3       8       49        3      active sync   /dev/sdd1

       4       8       17        -      faulty   /dev/sdb1


Ensuite :

madam --detail /dev/md2

Réponse :

Code: Tout sélectionner
   Version : 00.90.01
  Creation Time : Sun Jul 12 23:39:41 2009
     Raid Level : raid5
     Array Size : 1464837888 (1396.98 GiB 1499.99 GB)
    Device Size : 488279296 (465.66 GiB 500.00 GB)
   Raid Devices : 4
  Total Devices : 4
Preferred Minor : 2
    Persistence : Superblock is persistent

    Update Time : Tue Sep 22 20:31:40 2009
          State : clean, degraded
Active Devices : 3
Working Devices : 3
Failed Devices : 1
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 256K

           UUID : c574176f:92de60df:a0058178:84a4d41c
         Events : 0.2872494

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       1       0        0        -      removed
       2       8       34        2      active sync   /dev/sdc2
       3       8       50        3      active sync   /dev/sdd2

       4       8       18        -      faulty   /dev/sdb2


Dans les 2 cas, le sbb est manquant.

Puis je le rajouter en faisant :

Code: Tout sélectionner
mdadm /dev/md2 --add /dev/sdb1


Code: Tout sélectionner
mdadm /dev/md2 --add /dev/sdb2


et verifier la reconstruction avec :

Code: Tout sélectionner
cat /proc/mdstat


Désolé de ces questions, mais j'ai peur de faire une boulette

Merci
Laurent
Dernière édition par Laurent.M le 26 Sep 2009 11:51, édité 1 fois au total.
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Re: Problème raid

Messagepar Gaston » 22 Sep 2009 20:54

Bonsoir,
Laurent.M a écrit:Puis je le rajouter en faisant :
Code: Tout sélectionner
mdadm /dev/md2 --add /dev/sdb1

Code: Tout sélectionner
mdadm /dev/md2 --add /dev/sdb2
ben non :shock: , lit attentivement, md1 et md2 sont des devices raid (grappe raid) distincts:!:
De plus avant de re joindre un disque à la grappe, il faut qu'il en soit retiré
Code: Tout sélectionner
mdadm /dev/md1 --remove /dev/sdb1
mdadm /dev/md2 --remove /dev/sdb2
mdadm /dev/md1 --add /dev/sdb1
mdadm /dev/md2 --add /dev/sdb2

un conseil, fais très attention à ce que tu tapes, 8-[ il y a au moins deux fautes de frappe dans ton, post, une sans conséquences, la deuxième (que j'ai relevée) destructrice :-&

Sinon pour revenir au pourquoi de la chose : ton disque sdb a eu un problème, soit c'était juste un coup de chaude, de tension, ..., et effectivement cela va repartir sans soucis, soit c'est un problème plus conséquent. Vérifie les erreur avec "smartctl" et envisage un remplacement (la même chose qu'ici, sauf qu'avant de faire le "--add" on change le disque physique)

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar Laurent.M » 22 Sep 2009 22:37

@Gaston

Merci de cette réponse. Je ne sais pas ce qu'il s'est passé. Les disques sont de Juillet et ont un ventilo de 12 cm sur la figure en permanence. Avec mon thermométre laser, la T° est de 27.5°C ou 27.7 °C.

Je ne suis pas très doué en commande Raid d'ou mon post ... j'ai eu raison je crois.

Concernant ta remarque sur le fait de retirer le disque, je pensais que celui-ci était déjà retiré quand j'ai lu ceci (4 lignes avant la fin):

1 0 0 - removed

Me confirme tu que je dois bien exécuter ses commandes :
Code: Tout sélectionner
mdadm /dev/md1 --remove /dev/sdb1
mdadm /dev/md2 --remove /dev/sdb2


avant

Code: Tout sélectionner
mdadm /dev/md1 --add /dev/sdb1
mdadm /dev/md2 --add /dev/sdb2


Merci pour ton aide
Laurent

PS : je vais taper les commandes bien lentement et relire deux fois avant de presser la touche "enter"
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Gaston » 23 Sep 2009 14:32

Bonjour,
oui ce sont les commandes à taper.
je ne connaît pas la signification du terme "removed" dans le "mdadm --detail", mais je suis presque certain que cela n'a rien à voir avec ce que l'on veut faire ... à chercher pour la culture
Tu peux néanmoins _sans_ risque dans le contexte qui nous concerne , essayer de taper la commande --add avant d'avoir fait le remove, au pire, tu auras un message d'erreur comme dans le post cité, au mieux ;) , c'est ce qu'il fallait faire

G.

Avec mon thermométre laser, la T° est de 27.5°C ou 27.7 °C.
pour ma culture personnelle, peux me donner cette température en corrélation avec celle de la commande smartctl -a /dev/sdb
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar Laurent.M » 23 Sep 2009 21:52

Ok, je fais les commandes annoncées.

Pour la température voici ce que donne le : smartctl -a /dev/sda (j'ai mis le sda car le sdb est en vrac pour l'instant).

Je ne vois pas d'indication de température, mais il me semble qu'il faut configurer des lmsensors, chose que je n'ai pas fait. D'ailleurs si c'est simple à mettre en oeuvre, je peux faire le test.

Voici un copier - coller de la commande :

Code: Tout sélectionner
smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD5000AAKS-00A7B2
Serial Number:    WD-WCASY5015065
Firmware Version: 01.03B01
User Capacity:    500,107,862,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Sep 23 21:51:05 2009 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (11160) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 131) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   216   175   021    Pre-fail  Always       -       2191
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       45
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2058
10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       43
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       42
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       45
194 Temperature_Celsius     0x0022   117   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      2032         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Laurent
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Laurent.M » 23 Sep 2009 22:07

Bon, je viens de faire les commandes.

Il faut effectivement retirer le disque avant de l'ajouter. L'indication removed doit avoir une autre signification.

Une fois le disques remis, faut-il ajouter une autre commande, car le, rien ne se passe.

Le disque ne se reconstruit pas.

Laurent
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Laurent.M » 23 Sep 2009 22:16

Bon après un reboot du serveur, je suis retourné dans l'option 5 de l'interface sous admin.

Le système à détecté un nouveau disque et me demandé si je voulais l'ajouter. J'ai répondu : oui.

Maintenant, la resynchonisation est en cours. :D

Laurent
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Gaston » 24 Sep 2009 09:00

Laurent.M a écrit:smartctl -a /dev/sda (j'ai mis le sda car le sdb est en vrac pour l'instant).
pas encourageant, si smartctl voit pas le disque :(
Une fois le disques remis, faut-il ajouter une autre commande, car le, rien ne se passe.
non, mais si smartctl ne voyait pas le disque, .... j'imagine pas trop ce qui a pu être rajouté
Bon après un reboot du serveur
Mauvais automatisme :twisted: , tant mieux si c'est tombé en marche, le loto c'est 2€
mais bon moi je changerai le disque :-#

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar Laurent.M » 24 Sep 2009 09:06

Je vous donne des infos.

Quand j'ai quitté le serveur hier soir, la reconstruction du raid était à 7%.

Ce matin, le serveur ne répond plus à rien. Putty m'envoie des gros mots : pas de host :evil:

Ce soir, je vais brancher un clavier et un ecran sur le serveur pour en savoir plus.


Je pense que le disque à rendu l'âme !!

Laurent
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Laurent.M » 24 Sep 2009 20:17

Aie Aie

J'ai un magnifique :

Kernel panic - not syncing: Attempted to kill init!


Euh la, pour le coup je suis aussi en panic :shock:

J'ai debranche le disque suppose etre la l'origine du plantage, mais au redémarrage, SME me dit qu'il ne trouve pas un disque et me demande d'appuyer sur une touche. Il se charge alors un écran illisible avec une sorte de menu.
Quelque soit l'option (que je n'arrive pas à lire), je reviens à l'écran précédant.

Bref, je suis dans le pétrin.

Laurent
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Laurent.M » 24 Sep 2009 22:08

Bon,

je teste plein de truc que je trouve à gauche et droite sur ce forum, rien ne semble fonctionner.

Le disque qui doit être défectueux est logiquement le sdb. Quand je debranche ce disque du deuxieme port sata, SME plante même en mode rescue.
J'ai donc testé avec tous les disques, un à un. Le résultat est le même ... crash en mode rescue

Du coup, je ne suis plus sûr que le HDD defectueux soit le second.

Laurent
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Laurent.M » 24 Sep 2009 23:18

J'ai bien identifier le hdd défectueux avec la commande fdisk -l en mode rescue. Le disque est maintenant deconnecté.

Je voudrais dire au SME qu'il manque le disque defectueux en le retirant de la grappe RAID, seulement toutes les commandes que je tapes avec mdadm me renvoient un :

cannot get array info for /dev/md1

Que faut-il faire ?

Laurent
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Laurent.M » 25 Sep 2009 08:29

Je sais plus quoi faire, je pars acheter un nouveau HDD.

Mais comment le faire démarrer une fois mis dans le serveur ?

Laurent
Laurent.M
Premier-Maître
Premier-Maître
 
Messages: 56
Inscrit le: 25 Mai 2009 22:33

Messagepar Gaston » 25 Sep 2009 10:52

Bonjour,
cette dernière option me semble la bonne.
La démarche standard est de brancher le disque et de redémarrer le système (en mode normal).

Si le système ne détecte pas tout de suite le disque, ou propose de le réintégrer (je ne connait pas le comportement de SME dans ce cas précis), dans un premier temps l'important n'est pas forcément de reconstruire le raid.
Assures toi que le système redémarre correctement en mode "raid dégradé", et que tu vois correctement ton disque (dans /var/log/messages ou via "dmesg" , via la commande "fdisk -l" , il est normal d'avoir des erreurs sur les md* ...)

Quand tout est OK de ce côté, si besoin refait une sauvegarde, on ne sait jamais, et retourne dans le menu "gérer la redondance" tu devrais avoir la possibilité de rajouter ton disque.
Si tu préfères , fais le à la main (mdadm --add)

Si ça ne passe pas tout seul, redonne le résultat des commandes "cat /proc/mdstat" et "mdadm --detail /dev/md1" et "mdadm --detail /dev/md2"

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar Gaston » 25 Sep 2009 11:49

Une remarque que je me fait ... tout à coup
si tu n'as pas de sauvegarde récente, il peu être judicieux de procéder à celle-ci avant de continuer
- mettre les 3 disques sains dans un autre serveur (ou démarrer avec un linuxcdrescue et utiliser un disque externe pour la sauvegarde)
- démarrer le device raid en mode dégradé
Code: Tout sélectionner
mdadm --assemble /dev/md4 /dev/sda1 /dev/sdc1 /dev/sdd1 --run
l'option "--run" permet d'activer le raid en mode dégradé, sinon, il ne veut pas, il identifie qu'il devrait y avoir 4 disques ...
- monter le device (mount /dev/md4 /mon_point_de_montage)
- sauvegarder /mont_point_de_montage
- arrêter le device raid (mdadm --stop /dev/md4) et remettre les disques dans la machine d'origine

d'autre part, il apparaît que tu n'as pas de disque de spare, était-ce voulu ? (dans le cas présent, il n'y a pas de perte de données, tu as un raid5 sur 4 disques, tu en as perdu un, c'est dommage, mais tu utilises à fonds les mécanismes de raid, donc pas de soucis, mais plus de plan de replis ! ).

G.
[edit] correction de la commande pour la mettre en adéquation avec le contexte réel du problème [/edit]
Dernière édition par Gaston le 25 Sep 2009 13:45, édité 1 fois au total.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Suivant

Retour vers E-Smith / SME Server

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 1 invité

cron