[Haute disponibilité] SuSe - Heartbeat - DRBD - Samba

Forum d'assistance et d'échange sur l'installation, la configuration, et l'utilisation des système Linux et BSD. Vous pouvez y poster vos questions concernant ces systèmes d'exploitation en faisant l'effort préalable de rechercher dans le forum, dans les manuels et les documentations que la réponse n'y figure pas.

Modérateur: modos Ixus

[Haute disponibilité] SuSe - Heartbeat - DRBD - Samba

Messagepar alex84 » 14 Juin 2005 14:23

----------------------------------------------------------------------------------------------
Environnement matériel :
2 pc identiques :
P4 3ghz 1go Ram
Carte SCSI Adpatec 2120S sur laquelle sont montés les 3 disques durs. 1 disque pour la partition système et 2 disques identiques pour les partitions de données.

Environnement logiciel :
SuSe Linux 9.2 Noyau : 2.6.x
Heartbeat 1.2.3
Samba 3.x
Drbd 0.7.5
----------------------------------------------------------------------------------------------


Bonjour le forum ,

Après avoir réussi l’installation d’un système à Haute disponibilité (2 serveurs de données dans un cluster pour une réplication de données au travers d’un réseau local) nous avons commencé à avoir des problèmes après 4 mois d’utilisation quotidienne.

Le premier problème qui est apparu est le passage en lecture seule de la partition « système » sur le serveur secondaire (serveur N°2). Sans que personne n’intervienne sur les machines, la partition contentant le système d’exploitation a basculé en lecture seule et le DRBD s’est mis a fonctionné avec un seul serveur dans la solution de clustering. Suite à ceci nous avons redémarré les 2 serveurs simultanément et après une synchronisation des disques de données, tout était reparti à la normale. Seulement 2 semaines plus tard le même problème s’est reproduit. Afin de tenter de comprendre nous avons éteint le serveur n° 2 et laissé tourner le cluster avec 1 seul pc. 10 jours plus tard, alors que le serveur n° 1 était toujours seul dans le cluster, une partition stockant les données s’est elle aussi mise à fonctionner en lecture seule. Un redémarrage rapide du serveur a permis aux utilisateurs d’enregistrer leur travail et à peine quelques heures plus tard le problème est de nouveau apparu. Un nouveau redémarrage (le temps d’arriver sur le site) permet une nouvelle fois la sauvegarde du travail puis nous arrivons devant la machine où tout semble fonctionner normalement.
Fin de journée nous redémarrons les machines en les déconnectant du réseau, nous lançons la commande « e2fsck » sur les 2 pc, nous les laissons fonctionner un moment, rien d’anormal ne se produit devant nos yeux.

Après quelques tests d’écriture, nous voulons remettre les serveurs en route sur le réseau afin de synchroniser les données avant de poursuivre la maintenance. Nous rallumons tout le système, après vérification du statut du DRBD tout semble « ok » mais à notre arrivée le lendemain matin, les données présentes sur le serveur ne sont pas celles de la veille mais celles datant de l’arrêt du serveur n° 2. La synchronisation s ‘est effectuée dans le mauvais sens !

Après vérification des fichiers de logs on s’aperçoit qu’au démarrage des machines le serveur n° 2 a basculé pour une durée de 3 SECONDES (très difficilement visible à l’écran, puisqu’il aurait fallu regarder l’état du DRBD pendant ce temps là) en serveur primaire alors que cela ne s’est jamais produit pendant 4 mois au cours des quels nous avons parfois stoppé les serveurs.

Quelqu’un aurait-il une explication d’une part sur la mise en lecture seule des partitions et d’autre part sur le fait que le serveur secondaire est pu passer en primaire alors que le serveur n° 1 était déjà en ligne et fonctionnait sans problème apparent ?


Merci par avance
alex84
Matelot
Matelot
 
Messages: 5
Inscrit le: 10 Nov 2004 12:02

Messagepar antolien » 14 Juin 2005 17:47

Bonjour,

Quel est le système de fichier ?

J'imagine que c'est du ext3; le passage en ro des partition se produisent souvent lorsqu'on a un timeout de lecture.
Donc pour moi c'est surtout lié aux disque dur, soit il sont trop occupé, soit ils sont lents.

Quelle est la charge du serveur, nombre d'utilisateurs, applications ?
Que donne un test hdparm ?
Avatar de l’utilisateur
antolien
Amiral
Amiral
 
Messages: 3134
Inscrit le: 31 Août 2002 00:00

Messagepar alex84 » 15 Juin 2005 14:15

Bonjour,

Concernant le système de fichier, il s'agit bien d'ext3.

Concernant les applications tournant sur le serveur, il y a heartbeat samba, drbd et webmin. Environ 100 personnes utilisent ces serveurs pour stocker leur travail.

Il est possible que les disques soient trop occupés, vu que drbd synchronise à chaque écriture mais cela ne devrait il pas arriver seulement sur les disques de données et non le disque contenant le système ?

Ne connaissant pas le test hparm, je ne l'ai pas executé après que les problèmes soient apparus, masis j'ai tout de même lancé ce test ce matin par curiosité et voici ce que j'ai obtenu :

Code: Tout sélectionner
/dev/sda
Timing buffered disk reads : 316 MB in 3.01 seconds = 104.89 MB/sec
BLKFLSBUF failed : Inappropriate ioctl for device
HDIO_DRIVE_CMD(null) (wait for flush complete) failed : Inappropriate ioctl for device


A part les varirations de vitesse, j'obtiens ce message pour les 3 disques.
Quelqu'un peux-t-il m'expliquer ce que je dois en déduire ?

Merci pour vos réponses.
alex84
Matelot
Matelot
 
Messages: 5
Inscrit le: 10 Nov 2004 12:02


Retour vers Linux et BSD (forum généraliste)

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 1 invité

cron