[Résolu]--[Débutant] Vérification de la config RAID

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server

Modérateur: modos Ixus

[Résolu]--[Débutant] Vérification de la config RAID

Messagepar bethebeast » 17 Oct 2008 16:07

Bonjour,

Avant de commencer, je précise que j'ai fais quelques recherches sur le forum (et ailleurs aussi), lu pas mal de doc sur le sujet, mais j'aimerai avoir votre avis sur le problème que j'ai eu.

Ma config : SME 7.3
    2 disque IDE de 320 Go chacun
    2 disque SATA2 de 500 Go chacun
    Installation par défaut en mode server only


Bon,

Ce matin, je me suis rendu compte que mon serveur était éteint, paniqué, je me suis empréssé de tout vérifier et surprise : alimentation grillé, pourquoi...?! bref passons...

Après remplacement, les log m'informent d'un DegradedArray event on /dev/md1 et md2, bon ce qui est logique.
Sur la console, j'avais un :

Code: Tout sélectionner
[_UU] sur md2
et
[U_U] sur md1


Voici ce que j'ai fais en premier :

Code: Tout sélectionner
[root@hote ~]# fdisk -l

Disque /dev/hda: 320.0 Go, 320072933376 octets
255 têtes, 63 secteurs/piste, 38913 cylindres
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Boot      Start         End      Blocks   Id  System
/dev/hda1   *           1          13      104391   fd  Linux raid autodetect
/dev/hda2              14       38913   312464250   fd  Linux raid autodetect

Disque /dev/hdb: 320.0 Go, 320072933376 octets
255 têtes, 63 secteurs/piste, 38913 cylindres
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Boot      Start         End      Blocks   Id  System
/dev/hdb1   *           1          13      104391   fd  Linux raid autodetect
/dev/hdb2              14       38913   312464250   fd  Linux raid autodetect

Disque /dev/sda: 500.1 Go, 500107862016 octets
255 têtes, 63 secteurs/piste, 60801 cylindres
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Boot      Start         End      Blocks   Id  System
/dev/sda1   *           1          13      104391   fd  Linux raid autodetect
/dev/sda2              14       60801   488279610   fd  Linux raid autodetect

Disque /dev/sdb: 500.1 Go, 500107862016 octets
255 têtes, 63 secteurs/piste, 60801 cylindres
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Boot      Start         End      Blocks   Id  System
/dev/sdb1   *           1          13      104391   fd  Linux raid autodetect
/dev/sdb2              14       60801   488279610   fd  Linux raid autodetect

Disque /dev/md1: 106 Mo, 106823680 octets
2 têtes, 4 secteurs/piste, 26080 cylindres
Unités = cylindres de 8 * 512 = 4096 octets

Disque /dev/md1 ne contient pas une table de partition valide

Disque /dev/md2: 639.9 Go, 639926534144 octets
2 têtes, 4 secteurs/piste, 156232064 cylindres
Unités = cylindres de 8 * 512 = 4096 octets

Disque /dev/md2 ne contient pas une table de partition valide

Disque /dev/dm-0: 637.7 Go, 637701980160 octets
2 têtes, 4 secteurs/piste, 155688960 cylindres
Unités = cylindres de 8 * 512 = 4096 octets

Disque /dev/dm-0 ne contient pas une table de partition valide

Disque /dev/dm-1: 2080 Mo, 2080374784 octets
2 têtes, 4 secteurs/piste, 507904 cylindres
Unités = cylindres de 8 * 512 = 4096 octets

Disque /dev/dm-1 ne contient pas une table de partition valide


Puis :

Code: Tout sélectionner
mdadm --add /dev/md2 /dev/hda2


et

Code: Tout sélectionner
mdadm --add /dev/md1 /dev/hdb1


Après resynchronisation, tout semble correcte, pas de perte de données, ni "cassage" de disques (à ma grande surprise je dois dire...)

Seulement voila, en consultant /var/log/messages, je suis inquiété par ceci :

Code: Tout sélectionner
Oct 17 15:37:47 hote kernel: hub 2-0:1.0: 8 ports detected
Oct 17 15:37:47 hote kernel: md: Autodetecting RAID arrays.
Oct 17 15:37:47 hote kernel: md: could not bd_claim hda2.
Oct 17 15:37:47 hote kernel: md: could not bd_claim hdb1.
Oct 17 15:37:47 hote kernel: md: could not bd_claim sda1.
Oct 17 15:37:47 hote kernel: md: could not bd_claim sda2.
Oct 17 15:37:47 hote kernel: md: could not bd_claim sdb1.
Oct 17 15:37:47 hote kernel: md: could not bd_claim sdb2.
Oct 17 15:37:47 hote kernel: md: autorun ...
Oct 17 15:37:47 hote kernel: md: considering hdb2 ...
Oct 17 15:37:47 hote kernel: md:  adding hdb2 ...
Oct 17 15:37:47 hote kernel: md: hda1 has different UUID to hdb2
Oct 17 15:37:47 hote kernel: md: md2 already running, cannot run hdb2
Oct 17 15:37:47 hote kernel: md: export_rdev(hdb2)
Oct 17 15:37:47 hote kernel: md: considering hda1 ...
Oct 17 15:37:47 hote kernel: md:  adding hda1 ...
Oct 17 15:37:47 hote kernel: md: md1 already running, cannot run hda1
Oct 17 15:37:47 hote kernel: md: export_rdev(hda1)
Oct 17 15:37:47 hote kernel: md: ... autorun DONE.


Donc, d'après vous, est ce que je me suis gouré quelque part ?

Je vous remercie d'avance pour vos éclaircissements.

@+
Dernière édition par bethebeast le 22 Oct 2008 00:29, édité 1 fois au total.
bethebeast
Capitaine de vaisseau
Capitaine de vaisseau
 
Messages: 283
Inscrit le: 27 Avr 2008 20:18

Messagepar bethebeast » 20 Oct 2008 15:07

Personne pour m'éclairer ? sinif...snif... :oops:
bethebeast
Capitaine de vaisseau
Capitaine de vaisseau
 
Messages: 283
Inscrit le: 27 Avr 2008 20:18

Messagepar jdh » 20 Oct 2008 15:30

Ne connaissant pas SME, je ne sais pas ses "à priori' à l'installation concernant 1, 2, 3 ou 4 disques.

Je ne sais pas si SME utilise ET mdadm ET lvm.


Concernant mdadm (le raid logiciel), il faut savoir que
- les unités raid s'appelleront /dev/md0,1,2, ...
- leur état est visualisé par "cat /proc/mdstat" : regarder [_U] où U désigne une unité en état alors que _ est en faute.
- il s'agit de partition bien qu'on en ait aussi la liste par "fdisk -l" (d'où le message "ne contient pas une table de partition valide").

Je ne connais pas bien lvm, en dehors des commandes pvcreate, vgscan, vgchange ...

Je ne comprends pas bien /dev/dm-0 : cela ressemble à une ancienne version de mdadm !
Avatar de l’utilisateur
jdh
Amiral
Amiral
 
Messages: 4741
Inscrit le: 29 Déc 2002 01:00
Localisation: Nantes

Messagepar Gaston » 20 Oct 2008 23:24

Bonsoir,
jdh a écrit:Ne connaissant pas SME, je ne sais pas ses "à priori' à l'installation concernant 1, 2, 3 ou 4 disques.
sme7.3 :
1 disque - raid1 logiciel (dégradé, prêt à accueillir un deuxième disque)
2 disques - raid1 (miroir)
3 disques - raid1 avec un disque de spare
4 à 6 disques raid5 avec un disque de spare
7 ... disques raid6 avec un disque de spare
jdh a écrit:Je ne sais pas si SME utilise ET mdadm ET lvm.

oui : mdam pour créer/gérer les disques "physiques" et LVM pour toute la partie logique au dessus.
jdh a écrit:Je ne comprends pas bien /dev/dm-0 : cela ressemble à une ancienne version de mdadm !
Non, c'est un pseudo device lié au "device mapper"

bethebeast a écrit:Donc, d'après vous, est ce que je me suis gouré quelque part ?
on n'a pas les éléments pour affirmer (pourtant tu as fournis beaucoup de bonnes informations, bravo).

Tu as correctement identifié que tu avais un problème de raid, tu y as apporté une solution, mais tu ne dis pas ce qui t'as permis de la définir : l'ordre des disques dans le device raid n'est pas "fixe" je m'explique "U_U" indique que le deuxième membre du device raid pose problème, ce qui n'est pas équivalent à "c'est le 2eme disque 'physiquement' reconnu par le système (sdb ou hdb)" : ne pas oublier de considérer le résultat de la commande " mdadm --detail /dev/md[1-2]" (dans le cas présent) et l'ensemble de la réponse de "cat /proc/mdstat" pour identifier le(s) disque(s) en erreur.
Et les infos dans les logs semblent indiquer qu'il y a eu inversion à un moment ou un autre.

Mais je ne pense pas que ton problème viennent uniquement de là, et ta configuration est trop complexe pour fournir une réponse certaine (et sécurisée) à distance.

En effet, tu as 4 disques de 2 tailles différentes et sur deux technologies différentes (scsi ou sata et IDE) sur lesquels la procédure d'install de SME a créé un device raid 5 avec un hot spare #-o ](*,)

Je serait toi je ferai une sauvegarde EN vitesse de mes données et je recommencerai une installation moins "complexe" ...

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar jdh » 21 Oct 2008 05:21

Merci Gaston de ces informations !
Avatar de l’utilisateur
jdh
Amiral
Amiral
 
Messages: 4741
Inscrit le: 29 Déc 2002 01:00
Localisation: Nantes

Messagepar bethebeast » 21 Oct 2008 10:48

Bonjour,

Gaston a écrit:Bonsoir,

Tu as correctement identifié que tu avais un problème de raid, tu y as apporté une solution, mais tu ne dis pas ce qui t'as permis de la définir


Oui c'est vrais que j'avais oublié de préciser ce point. En fait, j'avais le choix entre : hda2 et hdb2 pour la grappe md2, et hda1/hdb1 pour md1. C'est en consultant les premiers "/var/log/messages" juste après l'installation :

Code: Tout sélectionner
Jul  9 14:12:20 hote kernel: raid5: automatically using best checksumming function: pIII_sse
Jul  9 14:12:20 hote kernel:    pIII_sse  :  8188.000 MB/sec
Jul  9 14:12:20 hote kernel: raid5: using function: pIII_sse (8188.000 MB/sec)
Jul  9 14:12:20 hote kernel: md: raid5 personality registered as nr 4
Jul  9 14:12:20 hote kernel: md: md1 stopped.
Jul  9 14:12:20 hote kernel: md: bind<hdb1>
Jul  9 14:12:20 hote kernel: md: bind<sda1>
Jul  9 14:12:20 hote kernel: md: bind<sdb1>
Jul  9 14:12:20 hote kernel: md: bind<hda1>
Jul  9 14:12:20 hote kernel: raid1: raid set md1 active with 3 out of 3 mirrors
Jul  9 14:12:20 hote kernel: md: md2 stopped.
Jul  9 14:12:20 hote kernel: md: bind<hdb2>
Jul  9 14:12:20 hote kernel: md: bind<sdb2>
Jul  9 14:12:20 hote kernel: md: bind<sda2>
Jul  9 14:12:20 hote kernel: md: bind<hda2>
Jul  9 14:12:20 hote kernel: raid5: device hda2 operational as raid disk 0
Jul  9 14:12:20 hote kernel: raid5: device sdb2 operational as raid disk 2
Jul  9 14:12:20 hote kernel: raid5: device hdb2 operational as raid disk 1
Jul  9 14:12:20 hote kernel: raid5: allocated 3162kB for md2
Jul  9 14:12:20 hote kernel: raid5: raid level 5 set md2 active with 3 out of 3 devices, algorithm 2
Jul  9 14:12:20 hote kernel: RAID5 conf printout:
Jul  9 14:12:20 hote kernel:  --- rd:3 wd:3 fd:0
Jul  9 14:12:20 hote kernel:  disk 0, o:1, dev:hda2
Jul  9 14:12:20 hote kernel:  disk 1, o:1, dev:hdb2
Jul  9 14:12:20 hote kernel:  disk 2, o:1, dev:sdb2


J'ai donc opté pour :

Code: Tout sélectionner
mdadm --add /dev/md2 /dev/hda2

et
Code: Tout sélectionner
mdadm --add /dev/md1 /dev/hdb1


Mais après, j'ai eu comme un doute d'avoir inversé : peut-être que j'aurais dû ajouter hdb2 à md2 et hda1 à md1...

Gaston a écrit:l'ordre des disques dans le device raid n'est pas "fixe" je m'explique "U_U" indique que le deuxième membre du device raid pose problème, ce qui n'est pas équivalent à "c'est le 2eme disque 'physiquement' reconnu par le système (sdb ou hdb)"


Oui, bien sûr, c'est pour ça que j'ai hésité !

Gaston a écrit:ne pas oublier de considérer le résultat de la commande " mdadm --detail /dev/md[1-2]" (dans le cas présent) et l'ensemble de la réponse de "cat /proc/mdstat" pour identifier le(s) disque(s) en erreur.


Et bien voila :

Code: Tout sélectionner
[root@hote ~]# mdadm --detail /dev/md1
/dev/md1:
        Version : 00.90.01
  Creation Time : Thu Jun 26 08:32:53 2008
     Raid Level : raid1
     Array Size : 104320 (101.89 MiB 106.82 MB)
    Device Size : 104320 (101.89 MiB 106.82 MB)
   Raid Devices : 3
  Total Devices : 3
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Mon Oct 20 15:25:23 2008
          State : clean
Active Devices : 3
Working Devices : 3
Failed Devices : 0
  Spare Devices : 0

           UUID : 2d9c765e:d09c0cd7:5bb2ff84:48eeeb32
         Events : 0.1149

    Number   Major   Minor   RaidDevice State
       0       8       17        0      active sync   /dev/sdb1
       1       3       65        1      active sync   /dev/hdb1
       2       8        1        2      active sync   /dev/sda1
[root@hote ~]# mdadm --detail /dev/md2
/dev/md2:
        Version : 00.90.01
  Creation Time : Thu Jun 26 08:32:53 2008
     Raid Level : raid5
     Array Size : 624928256 (595.98 GiB 639.93 GB)
    Device Size : 312464128 (297.99 GiB 319.96 GB)
   Raid Devices : 3
  Total Devices : 3
Preferred Minor : 2
    Persistence : Superblock is persistent

    Update Time : Tue Oct 21 10:07:36 2008
          State : clean
Active Devices : 3
Working Devices : 3
Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 256K

           UUID : 7dfd6940:1428697f:6b8213f7:362d80f1
         Events : 0.2725390

    Number   Major   Minor   RaidDevice State
       0       3        2        0      active sync   /dev/hda2
       1       8        2        1      active sync   /dev/sda2
       2       8       18        2      active sync   /dev/sdb2



Gaston a écrit:Et les infos dans les logs semblent indiquer qu'il y a eu inversion à un moment ou un autre.


J'en ai bien peur aussi... :cry:

Gaston a écrit:En effet, tu as 4 disques de 2 tailles différentes et sur deux technologies différentes (scsi ou sata et IDE) sur lesquels la procédure d'install de SME a créé un device raid 5 avec un hot spare #-o ](*,)

Je serait toi je ferai une sauvegarde EN vitesse de mes données et je recommencerai une installation moins "complexe" ...

G.


Si j'ia bien compris, tu me conseil (en bon ami) d'éviter l'installation par défaut de SME avec plusieurs disques de différentes tailles ? bon en même temps, c'est vrai que j'aurais dû creuser un peu plus la question, mais bon...

Sinon, (toujours en bon ami), qu'est ce qui irait le mieux dans mon cas (selon toi) : du RAID0 ? ou remplacer les deux disques IDE de 320 Go par un SATA2 de 500 Go et mettre le tout en RAID1 + Spare ?

En attendant, le serveur semble fonctionner correctement, et j'ai quelques backups de côté au cas où... :twisted:

En tout cas, je vous remercie (Gaston et Jdh) pour votre aide... ;-)

@+
bethebeast
Capitaine de vaisseau
Capitaine de vaisseau
 
Messages: 283
Inscrit le: 27 Avr 2008 20:18

Messagepar Gaston » 21 Oct 2008 22:30

Bonsoir,
les devices raid sont en vrac : tu n'as plus de disque de spare , c'est pas glop.
J'ai pas beaucoup de temps alors je vais faire vite : tu devrais avoir (d'après ce que je connaît de SME et d'une install par défaut) :
un device /dev/md1 constitué des "disques" /dev/hda1, /dev/hdb1, /dev/sda1, /dev/sdb1 (raid1 avec 2 copies et un spare) et
un device /dev/md2 constitué des "disques" /dev/hda2, /dev/hdb2, /dev/sda2, /dev/sdb2
avec pour md1 (raid1) 2 disques actifs et 2 spare et pour md2 (raid5) 3 disques actifs et un spare

Les commandes qui devraient être passées dans l'état actuel seraient :
Code: Tout sélectionner
mdadm --add /dev/md1 /dev/hda1
mdadm --add /dev/md2 /dev/hdb2
cela devrait rejoindre les disques en tant que spare. mais à distance il est difficile de fournir la solution. confirmer par la réflexion les commandes données me semble une bonne option (je dis pas que je n'ai pas écrit ce que je pense qui devrait être tapé, je dis juste que je peux faire des fôtes de lecture et de frappe).

Pour ce qui est de ce qui devrait être fait ou avoir été fait, il n'y a pas de réponse toute faite, cela dépend de ton besoin et de tes ressources.
Je pense qu'un device raid à cheval sur 2 technologies différentes est une erreur (vitesse de bus, ...) ne serait-ce intellectuellement.
Je ne suis pas pour le raid0 : ce n'est pas une solution de sécurité, seulement de d'usage maximum de la surface des disques.
Une première approche aurait été de réaliser l'install de SME avec seulement deux disques (raid1 une seule copie et pas de spare supplémentaire). Puis de créer (à la main) un autre device raid 1 avec les 2 autres disques, et utiliser ce device comme un "extra disque" (comme décrit sur le site de Grand'Pa
==> 320GB en raid1 + 500GB en raid1 d'utilisables
Une autre option est en effet, si tu en disposes de réaliser l'installation avec les 3 disques 500GB (j'aurai opté pour une install "sme nospare" ) ~ ça doit faire pas loin du TB d'espace utilisable avec une sécurité de raid5 : donc un peu plus de place mais avec une sécurité et un usage différents : si beaucoup d'écriture, la première solution peut-être préférable et inversement.

ne pas oublier de faire des sauvegardes régulières (et vérifiées) mais aussi avant de procéder à des opérations d'administration sur les disques ;)

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar bethebeast » 22 Oct 2008 00:33

Alors là, je suis comblé...

Gaston a écrit:J'ai pas beaucoup de temps alors je vais faire vite


Qu'est ce que ça aurait donné si tu avais le temps... :lol:

nan sérieusement, une réponse aussi clair et argumentée...que demander de plus, franchement, je te remercie, Gaston (sans oublier Jdh bien sûr) pour tes lumières. Même si j'ai encore pas mal à apprendre sur SME, maintenant, certains points me sont plus claire.

Encore merci :D

@+
bethebeast
Capitaine de vaisseau
Capitaine de vaisseau
 
Messages: 283
Inscrit le: 27 Avr 2008 20:18


Retour vers E-Smith / SME Server

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 1 invité

cron