Raid cassé : pourquoi ?

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server

Modérateur: modos Ixus

Raid cassé : pourquoi ?

Messagepar jibe » 29 Avr 2007 22:58

Salut,

Je viens d'avoir un problème qui me laisse sceptique : deux jours de suite, en arrivant le matin, ma SME assez récemment upgradée en 7.13 (j'étais encore en 6.01) est totalement plantée, les disques (2x260 Go en raid 1) manifestant une activité intense. Impossible de prendre la main, que ce soit par SSH ou sur l'écran-clavier du serveur que j'avais heureusement laissés. Ecran noir, aucune réaction au clavier. J'applique mon seul recours : le bouton Reset. Après redémarrage, je m'aperçois les deux fois que le raid resynchronise les disques. Mais si la première fois le serveur répondait, ce n'était plus le cas la seconde fois : après un bref affichage de la console qui m'a quand même permis de voir l'état du raid, plus de réponse au clavier... Nouveau reset, et là, kernel panic au reboot.

En vérifiant mes disques, je me suis aperçu que le premier (Primary Master avec un lecteur CD en Slave), seul ou pas, aboutissait toujours à un kernel panic (après vérif, le filesystem de la seconde partition était complètement cassé). Le second (Secondary Master, sans slave), hormis les messages dûs aux arrêts brutaux, a bien voulu démarrer correctement en mode dégradé.

Un petit coup d'oeil sur les logs pour tenter de comprendre ce qui s'est passé, et surprise :

Code: Tout sélectionner
Apr 26 02:45:01 e-smith su(pam_unix)[11253]: session opened for user qmailr by (uid=0)
Apr 26 02:45:05 e-smith su(pam_unix)[11253]: session closed for user qmailr
Apr 26 08:40:26 e-smith syslogd 1.4.1: restart.
Apr 26 08:40:27 e-smith syslog: Démarrage de syslogd succeeded


Le restart de 8h40 est le reset forcé que j'ai effectué, mais que s'est-il passé entre 2h45 et 8h40 ? Mystère... Pareil le lendemain :

Code: Tout sélectionner
Apr 27 07:30:01 e-smith su(pam_unix)[18909]: session opened for user qmailr by (uid=0)
Apr 27 07:30:04 e-smith su(pam_unix)[18909]: session closed for user qmailr
Apr 27 11:45:39 e-smith syslogd 1.4.1: restart.
Apr 27 11:45:39 e-smith syslog: Démarrage de syslogd succeeded


Pensant qu'il s'agissait à nouveau d'une reconstruction d'un disque, j'avais laissé faire. L'activité disque avait cessé un peu avant mon reset de 11h45, mais impossible de reprendre la main sur le serveur, écran console noir...

Les lignes de message.log filtrées sur le mot "raid" donnent cela :

Code: Tout sélectionner
Apr 26 08:40:28 e-smith raidmonitor: Starting raidmonitor:
Apr 26 08:40:28 e-smith raidmonitor: Starting raidmonitor succeeded
Apr 26 08:40:28 e-smith raidmonitor: 
Apr 26 08:40:28 e-smith raidmonitor:
Apr 26 08:40:28 e-smith rc.e-smith: Démarrage de raidmonitor : succeeded
Apr 26 08:40:30 e-smith kernel: md: raid1 personality registered as nr 3
Apr 26 08:40:30 e-smith kernel: md: md2: raid array is not clean -- starting background reconstruction
Apr 26 08:40:30 e-smith kernel: raid1: raid set md2 active with 2 out of 2 mirrors
Apr 26 08:40:30 e-smith kernel: raid1: raid set md1 active with 2 out of 2 mirrors
Apr 26 08:57:22 e-smith console: Personalities : [raid1]
Apr 26 08:57:22 e-smith console: md1 : active raid1 hda1[0] hdc1[1]
Apr 26 08:57:22 e-smith console: md2 : active raid1 hda2[0] hdc2[1]
Apr 26 08:57:22 e-smith console:                           'RaidLevel' => 'raid1',
Apr 26 08:57:22 e-smith console:                           'RaidLevel' => 'raid1',


Le lendemain :
Code: Tout sélectionner
Apr 27 11:45:41 e-smith raidmonitor: Starting raidmonitor:
Apr 27 11:45:41 e-smith raidmonitor: Starting raidmonitor succeeded
Apr 27 11:45:41 e-smith raidmonitor: 
Apr 27 11:45:41 e-smith raidmonitor:
Apr 27 11:45:41 e-smith rc.e-smith: Démarrage de raidmonitor : succeeded
Apr 27 11:45:43 e-smith kernel: md: raid1 personality registered as nr 3
Apr 27 11:45:43 e-smith kernel: md: md2: raid array is not clean -- starting background reconstruction
Apr 27 11:45:43 e-smith kernel: raid1: raid set md2 active with 2 out of 2 mirrors
Apr 27 11:45:43 e-smith kernel: raid1: raid set md1 active with 2 out of 2 mirrors
Apr 27 11:48:57 e-smith console: Personalities : [raid1]
Apr 27 11:48:57 e-smith console: md1 : active raid1 hda1[0] hdc1[1]
Apr 27 11:48:57 e-smith console: md2 : active raid1 hda2[0] hdc2[1]
Apr 27 11:48:57 e-smith console:                           'RaidLevel' => 'raid1',
Apr 27 11:48:57 e-smith console:                           'RaidLevel' => 'raid1',

Voilà... Les disques étant des Western Digital, je me dis qu'un problème physique sur l'un d'eux aurait dû être signalé par SMART... D'ailleurs, j'ai cloné le "bon" sur le "mauvais", et remonté le mauvais seul (je n'ose plus remonter le raid et fonctionne pour l'instant en mode dégradé sur 1 disque). Tout semble fonctionner correctement depuis environ 6 heures.

Où est donc le problème ? J'ai un peu pensé à la Ram, mais ne l'ai pas testée... Je n'y crois pas trop. Ai-je tort ?

Je me demande si ce qui a déclenché le problème n'est pas d'avoir tenté de récupérer un log sur le disque de ma SME 6 : j'avais profité de l'upgrade pour changer mes disques (qui sont donc flambant neufs) et procédé comme indiqué ici : http://wiki.contribs.org/SME_Server:Doc ... pgradeDisk . Le 25 après-midi (donc la veille du premier problème), j'avais tenté de remonter en Secondary Slave l'un des disques de ma SME 6, que je ne suis jamais parvenu à mounter (message habituel : bad fstype or superblock... plus en tête le message exact pourtant classique). Même problème avec le second disque (les deux étaient aussi montés en raid 1, et ma SME 6 fonctionnait comme une horloge). Jamais pu comprendre pourquoi je ne suis pas arrivé à les mounter... Je l'avais pourtant fait sans problème lors de l'upgrade...

Autre petit doute (mais pourquoi cela a fonctionné sans problème pendant deux semaines ?) : mon bios ne reconnait pas les disques de plus de 120 Go... Cela peut-il être l'explication ?

Voilà... Si quelqu'un a une explication, ça me rassurerait... L'envie de downgrader en SME 6 qui m'a donné entière satisfaction depuis sa sortie me démange !
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar jibe » 01 Mai 2007 19:21

Salut,

Un petit up, et une double question : il semble que le même problème se retrouve dans ce post et dans cet autre...

Cela me parait assez curieux, cette impossibilité de retrouver les données présentes sur la SME 7.1.3, alors que sur ma 6.01 je le faisais sans problème, de même que l'installation d'un disque supplémentaire...

Autre chose curieuse : en faisant un fdisk, je ne retrouve que deux partitions, pas de swap !!! Il me semble pourtant que juste après avoir réinstallé SME 7 sur mes nouveaux disques (à partir de l'ISO, donc SME 7.1, upgradée depuis en 7.1.3 par yum), j'avais bien une partition swap, et j'avais monté sans problème un disque supplémentaire...

:?: :?: :?:
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar Gaston » 02 Mai 2007 22:59

Salut Jibe,
pas la forme pour les recherches aujourd"hui ;)
de prime abord je serai pour dédouaner le service RAID dans l'histoire, mais bon j'ai pas toutes les logs ni l'historique sous les yeux ...

Avais tu le scan antivirus de fichier de validé sur ton serveur ? c'est un truc qui en a planté plus d'un l'an dernier (surtout si tu es juste en mémoire, ... et vu qu'une SME6 en demandait pas tant ...)

Concernant une install de base de SME 7, comme le souligne SibSib (dans un autre post), il faut prendre en compte la couche LVM. C'est pas le plus évident et c'est surement la raison qui a poussé les dev à proposer une option d'installation sans celui-ci.
Mais il ne faut pas oublier qu'un SME7 de base, c'est aussi un système avec un device RAID actif ...

reflechissons :
- tu as un SME 7 qui tourne, donc avec un RAID en md1 et md2
- tu as des disques de SME6 configurés en RAID donc avec un md1, non ?
- tu as des partitions en AutoRaid, et le support qui va avec : qu'est ce qu'il fait le noyau : ben il démarre le premier raid, il essaie de démarrer le second et patatrac, l'ID RAID est déjà prise :( le fallback n'est pas prévu.

il suffit donc de redémarrer le RAID du SME6 avec un nouvel ID
Code: Tout sélectionner
# mdadm -AR /dev/md5 /dev/[device] ...

A partir de là ça devrait être moins moche , non ?
Pour l'accès aux données d'une SME7-RAID-LVM avec une SME6 : le noyau de la 6 n'inclut pas le support de LVM , c'est rédibitoire! par contre tu peux utiliser un CDlive récent (Système RescueCD) et récupérer via réseau.
Pour l'accès aux données d'une SME7-LVM avec une autre SME7-LVM voir ici et aussi une méthode épuréedans le newbie kit SME7

Pour ce qui est du swap en fait c'est un LV du VGmain (/dev/main/swap) et non plus une partition.

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar jibe » 03 Mai 2007 18:56

Salut,

Merci pour tes explications, Gaston. Avant d'aller plus loin, il faut que je me documente plus sérieusement sur LVM : il y a encore des trucs que je n'ai pas compris (même si dans le cas présent, c'était plus un oubli par la force de l'habitude de SME6).

En tous cas, mes problèmes de mountage et mes doutes quant au raid sont dûs sans aucun doute à mon oubli de LVM ! (quoi que, tu parles de system rescue CD, j'ai tenté de lire mes disques SME7 avec et n'ai pas réussi à les mounter, pas plus qu'avec ma knoppix. L'un et l'autre ne sont pourtant pas d'une version très ancienne, puisque j'ai téléchargé de nouvelles ISO il y a quelques mois...)

Restent deux questions, qui n'ont je pense que peu à voir avec LVM :

1 - Pourquoi mon système a-t-il planté ? Je n'avais pas l'analyse des fichiers par clamav activée, quant aux logs, ils n'ont rien enregistré pendant le plantage ! Avant, je ne vois rien d'anormal... Juste avant la fin d'enregistrement dans les logs, qmail était en train de recevoir le courrier récupéré par SME Fetchmail (les deux fois ! Coïncidence ? La relève a lieu tous les 1/4 d'heure... Mais je ne vois rien d'anormal !) Et surtout, je fonctionne maintenant en mode dégradé depuis le 29 Avril sur un seul disque, celui-là même qui était cassé et sur lequel j'ai cloné le bon !!! Je ne vois pas comment trouver l'explication de ce plantage...

2 - LVM ou pas, j'ai mounté sans problème mon disque SME6 lors de la migration pour y récupérer mes données, et n'ai pas pu le refaire ensuite. C'est quand même curieux...
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar jibe » 03 Mai 2007 19:12

jibe a écrit: (quoi que, tu parles de system rescue CD, j'ai tenté de lire mes disques SME7 avec et n'ai pas réussi à les mounter, pas plus qu'avec ma knoppix. L'un et l'autre ne sont pourtant pas d'une version très ancienne, puisque j'ai téléchargé de nouvelles ISO il y a quelques mois...)

Décidément, je fatigue :?

Sûr qu'en tentant de mounter un disque sans tenir compte de LVM, ça ne peut pas marcher, quel que soit le CD à partir duquel on a booté ](*,)

J'espère que mes autres questions ne sont pas aussi idiotes :(
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Re: Raid cassé : pourquoi ?

Messagepar arapaho » 03 Mai 2007 19:20

jibe a écrit:Le 25 après-midi (donc la veille du premier problème), j'avais tenté de remonter en Secondary Slave l'un des disques de ma SME 6, que je ne suis jamais parvenu à mounter (message habituel : bad fstype or superblock... plus en tête le message exact pourtant classique). Même problème avec le second disque (les deux étaient aussi montés en raid 1, et ma SME 6 fonctionnait comme une horloge). Jamais pu comprendre pourquoi je ne suis pas arrivé à les mounter... Je l'avais pourtant fait sans problème lors de l'upgrade...


Ca fait un sacré bout de temps que je n'ai pas manipulé de RAID over LVM et je ne connais absolument pas la SME.

Déjà oublie SMART concernant la fiabilité des remontées d'informations de ce ... cette ... chose.

Si j'ai bien compris tu disposes d'un RAID over LVM.
Ta SME 6.x s'exécutait déjà sur une disposition équivalente. Le détail d'un LVM repose, en partie, sur par exemple:
md0 est composé de hda1,
md1 est composé de hdb1, jusqu'ici tout va bien. Ton 'vieux' RoLVM fonctionnait bien et ça roule.

Ta nouvelle SME 7.x est fraichement installée, toujours avec un RoLVM et toujours avec
md0 est composé de hda1
md1 est composé de hdb1.

Quand tu arrives avec un des anciens disques, sans la préparation pre-backup, tu le plug sur un 3eme port IDE en hdc et ce disque arrive avec un md0 composé de hda1. Et là je me demande si ça commencerait pas à fou.tre le mer.dier.
Serait-il possible d'avoir accès à ce pre-backup pour voir ce qu'il touche [j'ai vraiment l'envie et le temps de me faire ch.ier avec une SME]
Avatar de l’utilisateur
arapaho
Amiral
Amiral
 
Messages: 1119
Inscrit le: 18 Avr 2002 00:00
Localisation: Genève

Messagepar jibe » 03 Mai 2007 19:38

Merci pour tes précisions, Arapaho !

arapaho a écrit:Déjà oublie SMART concernant la fiabilité des remontées d'informations de ce ... cette ... chose.

Que veux-tu dire par là :D ?
J'ai tout à coup un doute : me suis-je bien fait comprendre ? Je comptais un peu sur SMART pour me dire si mon disque n'avait pas un problème, ni plus ni moins. C'est quand même bien fait pour ça, non ?

Pour la suite, il y a une petite nuance : SME6 n'était pas sous LVM.

Pour le pre-backup, j'y ai pensé. Et le disque que j'ai tenté de mounter la seconde fois sans succès était mon second disque raid, celui qui avait eu le pre-backup effectué et n'avait plus du tout servi depuis. Je n'aurais donc pas dû avoir de problème...

arapaho a écrit:Serait-il possible d'avoir accès à ce pre-backup pour voir ce qu'il touche

Je ne me suis jamais penché sur cette question... C'est probablement un script perl qui fait ça, il suffirait de le localiser et de l'analyser. A moins que quelqu'un (GrandPa ? MasterSleepy ? Gaston ? Autre ?) en sache plus sur ce point...
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar Titofe » 04 Mai 2007 07:32

Juste pour dire que j’ai eu il y a quelque jour un problème similaire.
La semaine dernière en regardant mes mail je me suis aperçu que j’avais un problème avec le raid de ma SME (je suis comme toi en 7.1.3), j’ai donc étais voir sur le serveur ce qui ce passe, vu mon niveau de compétence je n’ai pas fait de recherche aussi pousser que toi, je me suis loguer en « admin » sur la console et j’ai étais dans « Gérer la redondance des disques » qui ma confirmer la même chose, j’ai donc arrêter mon serveur pour vérifier l’état des disques dur et surtout des fiche car je suis en SATA et j’ai déjà eu le problème d’une fiche qui avais trop chauffé, en la changeant le problème avait étais résolu, mais là rien de tout ça.
Je relance mon serveur retourne dans la console en « admin » « Gérer la redondance des disques » et là il me dit qu’il ya un nouveau disque ?!? Ok je suis bon joueur, ma sauvegarde est « Ok » donc je fait ce qu’il me dit, je clique pour qu’il reconstruise le nouveau disque à l’identique du 1er, tout fonctionne à merveille sauf mes mail qui me dise le contraire (dans la console il n’y a pas de problème pour le Raid).

Mon problème Raid à durer quelque jour jusqu'au moment où j’ai changé de serveur pour d’autre raison (je parle de matériel, carte mère, disque dur, etc.), donc comme je n’utiliser plus pour le moment le serveur ou j’avais rencontré le problème du Raid, j’ai fait une installation toute fraiche de SME en 7.1.3 sans toucher à quoique ce soit dans la tour et depuis une semaine il tourne très bien sans rencontrer le moindre problème.

Comme je le dit plus haut, je ne dit pas que mon problème est même que le tien, mais je le trouve aussi étonnant, pour ma part il est résolu, mais bon comme je l’ai dit plus haut je ne suis pas très fort dans ce domaine, peut être qu’il y avait une solution ou une raison valable …

Titofe
Avatar de l’utilisateur
Titofe
Vice-Amiral
Vice-Amiral
 
Messages: 599
Inscrit le: 13 Sep 2006 17:02

Messagepar jibe » 04 Mai 2007 18:01

Salut,

Merci pour ton témoignage intéressant... Un peu bizarre, tout ça... Je n'aime pas beaucoup ces problèmes inexpliqués :?
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar Gaston » 06 Mai 2007 12:07

Bonjour,
rebooter un serveur qui reporte des erreurs de RAID sans avoir analysé le problème au préalable peux conduire à des catastrophes (ceci est un commentaire générale et non pas une appréciation).
La gestion du RAID sous SME semble *TRES* sensible aux micro-problèmes sur les disques (IDE ?), et on peut facilement se retrouver en mode "dégradé" (généralement sur un seul des deux meta-devices)
La bonne option est donc de rejoindre le disque "défectueux" au métadevice (vous trouverez de nombreux de postx à ce sujet sur contribs - que ce soit en v7 ou v6 d'ailleurs).

Pour ce qui est de ton problème de RAID, je n'ai aucune idée JiBe, désolé.
Pour l'histoire du mount de disque de la sme6 là c'est très bizarre (mais en aucun cas lié à LVM ne mélangeaons pas tout de grâce :roll: ).
Comme je l'avais suggéré et que Arapaho a très bien détaillé, le plus probable est un conflit d'ID RAID.
On a beaucoup de combinaison pour y arriver :
- ID raid
- configuration des métadevice
- dénomination des "disques" dans les md (hda1, hdb1, hdc1 ...)

si tu arrives à un seul conflit, le md ne démarre pas, tu ne peux donc pas accéder à tes données (en apparté la conf LVM est une de ces données ;) ...:lol: donc si on y arrive pas on a aucune chance d'accéder aux données utitilisateur - enfin simplement)

Pour vérifier que le device raid a démarré je ne connait que dmesg et cat /proc/mdstat si tu as l'occasion de redémarrer ton serveur , passe un
Code: Tout sélectionner
mdadm --examine --scan
cela devrait t'apporter des infos intéressantes à croiser avec le dmesg bien sûr.

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar jibe » 09 Mai 2007 09:31

Salut,

Gaston a écrit:rebooter un serveur qui reporte des erreurs de RAID sans avoir analysé le problème au préalable peux conduire à des catastrophes (ceci est un commentaire générale et non pas une appréciation).

C'est juste ! Mais quand tout est planté, au point de ne plus avoir aucun accès console comme c'était mon cas, on fait quoi ? Attendre ? C'est vrai qu'une fois, ça s'est débloqué au bout de 2h... Mais impossible de savoir si ça se débloquera et quand !

Gaston a écrit:La gestion du RAID sous SME semble *TRES* sensible aux micro-problèmes sur les disques (IDE ?), et on peut facilement se retrouver en mode "dégradé" (généralement sur un seul des deux meta-devices)

C'est la seule explication que je vois à mon problème... Bien qu'elle n'explique probablement pas tout. Et que je n'ai jamais eu, pendant 4 ans sur 2 serveurs en prod, le moindre problème de raid même si l'un avait des disques de qualité très médiocre : le raid sous SME6 me paraissait bien plus fiable (2 serveurs/4ans, aucun problème <=> 1 serveur/15 jours, plantages malgré des disques WD)... Coïncidence peut-être, mais ce que tu me dis là confirme mon impression et ne me rassure pas !!! A se demander s'il faut faire du raid sur SME7, malheureusement, on n'a plus le choix. Le mode dégradé ne me plait pas beaucoup, bien que j'aie d'autres serveurs avec 1 seul disque qui ne m'ont encore posé aucun problème. Et le mien fonctionne maintenant très bien en mode dégradé, avec le disque qui semblait avoir posé problème...

Gaston a écrit:Pour vérifier que le device raid a démarré je ne connait que dmesg et cat /proc/mdstat si tu as l'occasion de redémarrer ton serveur , passe un
Code:
mdadm --examine --scan
cela devrait t'apporter des infos intéressantes à croiser avec le dmesg bien sûr.

Trop tard ! J'ai effacé et réutilisé le disque qui semblait poser problème :oops:
Mais de toutes façons, le serveur ne bootait plus... Alors que finalement, en supprimant hda et en montant hdc à sa place, tout est reparti... Comprends mal que le fonctionnement en mode dégradé sur hdc n'ait plus été possible... :idea: Je n'ai pas vérifié, depuis, le fonctionnement de mon second contrôleur IDE. Serait-ce l'explication ? Mais alors, pourquoi tout était bon sur hdc ?
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar fred-info » 09 Mai 2007 15:44

Bonjour,

je vais essayer de vous aider mais en précisant que mes compétences en raid ne sont pas sous SME.


En softraid si le disque N°1 a un problème il faut intervertir les nappes pour démarrer sur le N°2.
Là tout doit repartir, en mode dégradé, sans pertes de données.
Il est conseillé de mettre un disque de remplacement sur le second canal, voir si la reconstruction se passe bien et éventuelement remettre le dique N°1 et encore une fois voir si la reconstruction se passe bien.

Je suis d'accord pour dire que les connecteurs SATA sont des vrais ù*ù$ù^*.

Un point particulièrement important avec les disques 'récents' c'est la température. Ils tournent de plus en plus vite et sont de plus en plus 'denses'.
Vous parlez de SMART et vous avez bien raison. Certaines distributions remontent l' info température et croyez moi c'est très instructif. Pour la disposition dans le boitier, le rajout de ventilos ...
Les disques qui approchent les 60°C c'est pas génial.

Je n'ai pas pris le temps d'analyser les avantages/inconvenients de LVM.
Mais d'expérience j'élimine tout ce qui ne m'est pas indispensable à priori.
La maintenance doit être accessible et trop de technologies imbriquées c'est pas facile à maitriser.

La dernière ubuntu en cd live est très bonne et peut rendre de fiers services.

Je reste persuadé que le meilleur raid c'est le raid5 avec un hot spare. Mais je conseille à tous de regarder du côté de Freenas et rsync. Histoire de dormir tranquille et faire de beaux rêves.

Pour info j'ai un raid1 sur mandrake 10 qui a cassé il y a quelques semaines.
J'ai tenté de monter le 'bon' disque sur une mandriva (et sur une mandrake10) -> j'ai pas réussi. (pas assez de partitons pour un raid1 (le gag))

J'ai du booter sur un cd live et copier toutes les données du disque fiable sur le réseau.

Je suis conscient de ne pas avoir beaucoup fait avancer le sujet mais si mes quelques remarques peuvent servir à quelqu'un...


A+
fred-info
Lieutenant de vaisseau
Lieutenant de vaisseau
 
Messages: 200
Inscrit le: 04 Oct 2006 14:57

Messagepar Gaston » 09 Mai 2007 22:32

bonsoir,
je vais essayer de ne pas être trop désagréable mais :
- je ne vois pas ce qui empêche de redémarrer sur n'importe lequel des disques sains d'un Raid1 à condition que les bonnes actions aient été prises lors de la constitution (c'est le cas sur la SME7), ou alors c'est vraiment qu'il y a quequechose qui m'échappe régulièrement
- il n'y a pas de niveau de Raid meilleur qu'un autre, il y a des niveaux de Raid qui répondent à divers besoins et diverses contraintes, le Raid5 est effectivement un bon compromis, aujourd'hui on pourras préfèrer le raid 6 en 5+2 ou 6+2

Je ne polémiquerait pas plus, et comme tu le soulignes avec justesse, rien ne vaut une attention soutenue à la bonne santé mécanique (chaleur, vibrations, ...) des disques et de bonnes sauvegardes régulières (et vérifiées!) .

G.
Avatar de l’utilisateur
Gaston
Amiral
Amiral
 
Messages: 1367
Inscrit le: 06 Oct 2003 00:00
Localisation: Saint Maur, 94 FR

Messagepar fred-info » 10 Mai 2007 11:06

Bonjour,

- je ne vois pas ce qui empêche de redémarrer sur n'importe lequel des disques sains d'un Raid1 à condition que les bonnes actions aient été prises lors de la constitution (c'est le cas sur la SME7), ou alors c'est vraiment qu'il y a quequechose qui m'échappe régulièrement


En fait tout dépend si c'est le disque du premier ou du second canal qui a laché. (je parle de raid soft)

- il n'y a pas de niveau de Raid meilleur qu'un autre, il y a des niveaux de Raid qui répondent à divers besoins et diverses contraintes, le Raid5 est effectivement un bon compromis, aujourd'hui on pourras préfèrer le raid 6 en 5+2 ou 6+2


C'est vrai qu'il n'y a pas de raid meilleur qu'un autre et que tout dépend de ce qu'on recherhe. mea culpa.

Le raid6 a l'air interressant mais je ne l'ai pas testé.

A bientôt
fred-info
Lieutenant de vaisseau
Lieutenant de vaisseau
 
Messages: 200
Inscrit le: 04 Oct 2006 14:57

Messagepar jibe » 10 Mai 2007 18:28

Salut,

fred-info a écrit:En fait tout dépend si c'est le disque du premier ou du second canal qui a laché. (je parle de raid soft)

:shock:
Gaston a écrit:je ne vois pas ce qui empêche de redémarrer sur n'importe lequel des disques sains d'un Raid1 à condition que les bonnes actions aient été prises lors de la constitution (c'est le cas sur la SME7)

Je suis d'autant plus d'accord avec Gaston qu'il m'est arrivé plusieurs fois de redémarrer sans problème après un crash du disque Primary Master, donc de repartir allègrement sur le Secondary Master sans rien toucher au hardware...

Et puis, c'est quoi ces canaux dont tu parles ? Les canaux IDE ? Mais on peut très bien faire du raid soft avec des disques sur le même contrôleur ! Le seul petit inconvénient est que si on a un problème hard sur le contrôleur, les deux disques ne fonctionnent plus, d'où l'habitude de mettre les disques en hda et hdc, mais rien n'y oblige. Alors, quelle serait la différence sur le mode dégradé si les disques sont en hda-hdb ou en hda-hdc ? Il n'y a pas d'histoire de canaux IDE... Et pour le SCSI ?
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Suivant

Retour vers E-Smith / SME Server

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 1 invité