Je viens d'avoir un problème qui me laisse sceptique : deux jours de suite, en arrivant le matin, ma SME assez récemment upgradée en 7.13 (j'étais encore en 6.01) est totalement plantée, les disques (2x260 Go en raid 1) manifestant une activité intense. Impossible de prendre la main, que ce soit par SSH ou sur l'écran-clavier du serveur que j'avais heureusement laissés. Ecran noir, aucune réaction au clavier. J'applique mon seul recours : le bouton Reset. Après redémarrage, je m'aperçois les deux fois que le raid resynchronise les disques. Mais si la première fois le serveur répondait, ce n'était plus le cas la seconde fois : après un bref affichage de la console qui m'a quand même permis de voir l'état du raid, plus de réponse au clavier... Nouveau reset, et là, kernel panic au reboot.
En vérifiant mes disques, je me suis aperçu que le premier (Primary Master avec un lecteur CD en Slave), seul ou pas, aboutissait toujours à un kernel panic (après vérif, le filesystem de la seconde partition était complètement cassé). Le second (Secondary Master, sans slave), hormis les messages dûs aux arrêts brutaux, a bien voulu démarrer correctement en mode dégradé.
Un petit coup d'oeil sur les logs pour tenter de comprendre ce qui s'est passé, et surprise :
- Code: Tout sélectionner
Apr 26 02:45:01 e-smith su(pam_unix)[11253]: session opened for user qmailr by (uid=0)
Apr 26 02:45:05 e-smith su(pam_unix)[11253]: session closed for user qmailr
Apr 26 08:40:26 e-smith syslogd 1.4.1: restart.
Apr 26 08:40:27 e-smith syslog: Démarrage de syslogd succeeded
Le restart de 8h40 est le reset forcé que j'ai effectué, mais que s'est-il passé entre 2h45 et 8h40 ? Mystère... Pareil le lendemain :
- Code: Tout sélectionner
Apr 27 07:30:01 e-smith su(pam_unix)[18909]: session opened for user qmailr by (uid=0)
Apr 27 07:30:04 e-smith su(pam_unix)[18909]: session closed for user qmailr
Apr 27 11:45:39 e-smith syslogd 1.4.1: restart.
Apr 27 11:45:39 e-smith syslog: Démarrage de syslogd succeeded
Pensant qu'il s'agissait à nouveau d'une reconstruction d'un disque, j'avais laissé faire. L'activité disque avait cessé un peu avant mon reset de 11h45, mais impossible de reprendre la main sur le serveur, écran console noir...
Les lignes de message.log filtrées sur le mot "raid" donnent cela :
- Code: Tout sélectionner
Apr 26 08:40:28 e-smith raidmonitor: Starting raidmonitor:
Apr 26 08:40:28 e-smith raidmonitor: Starting raidmonitor succeeded
Apr 26 08:40:28 e-smith raidmonitor: [60G
Apr 26 08:40:28 e-smith raidmonitor:
Apr 26 08:40:28 e-smith rc.e-smith: Démarrage de raidmonitor : succeeded
Apr 26 08:40:30 e-smith kernel: md: raid1 personality registered as nr 3
Apr 26 08:40:30 e-smith kernel: md: md2: raid array is not clean -- starting background reconstruction
Apr 26 08:40:30 e-smith kernel: raid1: raid set md2 active with 2 out of 2 mirrors
Apr 26 08:40:30 e-smith kernel: raid1: raid set md1 active with 2 out of 2 mirrors
Apr 26 08:57:22 e-smith console: Personalities : [raid1]
Apr 26 08:57:22 e-smith console: md1 : active raid1 hda1[0] hdc1[1]
Apr 26 08:57:22 e-smith console: md2 : active raid1 hda2[0] hdc2[1]
Apr 26 08:57:22 e-smith console: 'RaidLevel' => 'raid1',
Apr 26 08:57:22 e-smith console: 'RaidLevel' => 'raid1',
Le lendemain :
- Code: Tout sélectionner
Apr 27 11:45:41 e-smith raidmonitor: Starting raidmonitor:
Apr 27 11:45:41 e-smith raidmonitor: Starting raidmonitor succeeded
Apr 27 11:45:41 e-smith raidmonitor: [60G
Apr 27 11:45:41 e-smith raidmonitor:
Apr 27 11:45:41 e-smith rc.e-smith: Démarrage de raidmonitor : succeeded
Apr 27 11:45:43 e-smith kernel: md: raid1 personality registered as nr 3
Apr 27 11:45:43 e-smith kernel: md: md2: raid array is not clean -- starting background reconstruction
Apr 27 11:45:43 e-smith kernel: raid1: raid set md2 active with 2 out of 2 mirrors
Apr 27 11:45:43 e-smith kernel: raid1: raid set md1 active with 2 out of 2 mirrors
Apr 27 11:48:57 e-smith console: Personalities : [raid1]
Apr 27 11:48:57 e-smith console: md1 : active raid1 hda1[0] hdc1[1]
Apr 27 11:48:57 e-smith console: md2 : active raid1 hda2[0] hdc2[1]
Apr 27 11:48:57 e-smith console: 'RaidLevel' => 'raid1',
Apr 27 11:48:57 e-smith console: 'RaidLevel' => 'raid1',
Voilà... Les disques étant des Western Digital, je me dis qu'un problème physique sur l'un d'eux aurait dû être signalé par SMART... D'ailleurs, j'ai cloné le "bon" sur le "mauvais", et remonté le mauvais seul (je n'ose plus remonter le raid et fonctionne pour l'instant en mode dégradé sur 1 disque). Tout semble fonctionner correctement depuis environ 6 heures.
Où est donc le problème ? J'ai un peu pensé à la Ram, mais ne l'ai pas testée... Je n'y crois pas trop. Ai-je tort ?
Je me demande si ce qui a déclenché le problème n'est pas d'avoir tenté de récupérer un log sur le disque de ma SME 6 : j'avais profité de l'upgrade pour changer mes disques (qui sont donc flambant neufs) et procédé comme indiqué ici : http://wiki.contribs.org/SME_Server:Doc ... pgradeDisk . Le 25 après-midi (donc la veille du premier problème), j'avais tenté de remonter en Secondary Slave l'un des disques de ma SME 6, que je ne suis jamais parvenu à mounter (message habituel : bad fstype or superblock... plus en tête le message exact pourtant classique). Même problème avec le second disque (les deux étaient aussi montés en raid 1, et ma SME 6 fonctionnait comme une horloge). Jamais pu comprendre pourquoi je ne suis pas arrivé à les mounter... Je l'avais pourtant fait sans problème lors de l'upgrade...
Autre petit doute (mais pourquoi cela a fonctionné sans problème pendant deux semaines ?) : mon bios ne reconnait pas les disques de plus de 120 Go... Cela peut-il être l'explication ?
Voilà... Si quelqu'un a une explication, ça me rassurerait... L'envie de downgrader en SME 6 qui m'a donné entière satisfaction depuis sa sortie me démange !