Plantage récurrent de SME

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server

Modérateur: modos Ixus

Plantage récurrent de SME

Messagepar tito » 04 Juin 2004 15:42

Bonjour

J'ai installé SME (free_eos 1.1 en fait) pendant plusieurs mois il n'y pas eu de problèmes, mais là ça fait plusieurs fois (3 ou 4 fois je crois avec plusieurs semaines entre chaque fois) que le serveur plante.

Les symptomes sont les suivants : le serveur n'est plus accessible par le voisinage réseau Windows, on ne peut pas accéder à l'interface (server-manager) par http, et on ne peut pas se connecter en ssh. Par contre le ping répond (chaque fois que j'ai testé en tout cas)

Quand on branche écran et clavier sur le serveur plusieurs possibilités: une fois il y avait plein de signes étranges sur tout l'écran : pas d'autres possibilités que de redémarrer en appuyant sur reset, d'autres fois ça semblait plus normal : invite de login, mais avec des trucs bizarres des messages d'erreurs pour presque toutes les commandes ou même refus de tout login. et au redémarrage parfois ça a été normal et d'autres fois assez long parce qu'il reconstruisait... je ne sais plus trop quoi, désolé j'aurais du noter, mais il y avait un pourcentage qui défilait lentement.

Dans les fichiers journaux voilà les dernieres lignes avant le redémarrage de ce matin 11h.


Code: Tout sélectionner
Jun  4 07:04:56 serveur kernel: VFS: file-max limit 4096 reached
Jun  4 07:21:52 serveur ntpd[724]: can't open /etc/ntp/drift.TEMP: Too many open files in system
Jun  4 05:22:34 serveur /usr/sbin/named[1446]: ifiter_ioctl.c:92: unexpected error:
Jun  4 05:22:34 serveur /usr/sbin/named[1446]: making interface scan socket: Too many open files in system
Jun  4 05:22:34 serveur /usr/sbin/named[1446]: no longer listening on 127.0.0.1#53
Jun  4 05:22:34 serveur /usr/sbin/named[1446]: no longer listening on 192.168.37.12#53
Jun  4 05:22:34 serveur /usr/sbin/named[1446]: not listening on any interfaces
Jun  4 06:22:34 serveur /usr/sbin/named[1446]: listening on IPv4 interface lo, 127.0.0.1#53
Jun  4 06:22:34 serveur /usr/sbin/named[1446]: listening on IPv4 interface eth0, 192.168.37.12#53
Jun  4 06:22:34 serveur /usr/sbin/named[1446]: creating TCP socket: not enough free resources


quelqu'un a t-il une idée ? au moins de tests que je pourrais faire ?

en regardant les journaux, je m'aperçois qu'il y avait des messages étranges aussi le 1er juin alors qu'il n'y avait rien eu de spécial ce jour là. je colle les premières lignes


Code: Tout sélectionner
Jun  1 01:12:04 serveur syslogd 1.4.1: restart.
Jun  1 01:12:04 serveur e-smith[14657]: S65reload-syslogd=action|Event|logrotate|Action|S65reload-syslogd|Start|1086045123 938419|End|1086045124 237033|Elapsed|0.298614
Jun  1 01:12:04 serveur e-smith[14657]: Running event handler: /etc/e-smith/events/logrotate/S65restart-httpd-graceful
Jun  1 01:12:04 serveur e-smith[14657]: S65restart-httpd-graceful=action|Event|logrotate|Action|S65restart-httpd-graceful|Start|1086045124 239541|End|1086045124 512810|Elapsed|0.273269
Jun  1 01:12:04 serveur e-smith[14657]: Running event handler: /etc/e-smith/events/logrotate/S70reload-httpd-admin
Jun  1 01:12:04 serveur e-smith[14657]: S70reload-httpd-admin=action|Event|logrotate|Action|S70reload-httpd-admin|Start|1086045124 515217|End|1086045124 838339|Elapsed|0.323122
Jun  1 01:12:04 serveur e-smith[14657]: Running event handler: /etc/e-smith/events/logrotate/S75purge-old-logs
Jun  1 01:12:05 serveur e-smith[14657]: S75purge-old-logs=action|Event|logrotate|Action|S75purge-old-logs|Start|1086045124 838914|End|1086045125 76815|Elapsed|0.237901
Jun  1 01:12:05 serveur httpd-admin: httpd-admin -USR1 succeeded
jun  1 01:12:05 serveur httpd-e-smith: httpd -USR1 succeeded
Jun  1 01:12:05 serveur e-smith-bg: Gracefully reloading e-smith httpd-admin: [   OK   ]^M
Jun  1 01:12:10 serveur e-smith-bg: Gracefully reloading httpd: [   OK   ]^M
Jun  1 12:06:14 serveur kernel: eth0: Transmit timeout, status 0d 0000 media 08.
Jun  1 12:06:14 serveur kernel: eth0: Tx queue start entry 2645215  dirty entry 2645211.
Jun  1 12:06:14 serveur kernel: eth0:  Tx descriptor 0 is 0008203c.
Jun  1 12:06:14 serveur kernel: eth0:  Tx descriptor 1 is 1008203c.
Jun  1 12:06:14 serveur kernel: eth0:  Tx descriptor 2 is 4008203c.
Jun  1 12:06:14 serveur kernel: eth0:  Tx descriptor 3 is 1008203c. (queue head)
Jun  1 12:06:14 serveur kernel: eth0: MII #32 registers are: 1000 782d 0000 0000 01e1 0000 0000 0000.
Jun  1 16:29:49 serveur sshd(pam_unix)[15304]: authentication failure; logname= uid=0 euid=0 tty=NODEVssh ruser= rhost=pc-00027  user=root
Jun  1 16:29:51 serveur sshd[15304]: Failed password for root from 192.168.37.27 port 1433 ssh2
Jun  1 16:30:01 serveur sshd[15304]: Failed password for root from 192.168.37.27 port 1433 ssh2
Jun  1 16:30:01 serveur sshd[15304]: Failed none for root from 192.168.37.27 port 1433 ssh2
Jun  1 16:30:05 serveur sshd[15304]: Accepted password for root from 192.168.37.27 port 1433 ssh2
Jun  1 16:30:05 serveur sshd(pam_unix)[15304]: session opened for user root by (uid=0)
Jun  1 16:36:23 serveur sshd(pam_unix)[15304]: session closed for user root
Jun  1 17:15:39 serveur kernel: eth0: Transmit timeout, status 0d 0000 media 08.
Jun  1 17:15:39 serveur kernel: eth0: Tx queue start entry 672044  dirty entry 672040.
Jun  1 17:15:39 serveur kernel: eth0:  Tx descriptor 0 is 000820ea. (queue head)
Jun  1 17:15:39 serveur kernel: eth0:  Tx descriptor 1 is 00082042.
Jun  1 17:15:39 serveur kernel: eth0:  Tx descriptor 2 is 10082042.
Jun  1 17:15:39 serveur kernel: eth0:  Tx descriptor 3 is 40082042.
Jun  1 17:15:39 serveur kernel: eth0: MII #32 registers are: 1000 782d 0000 0000 01e1 0000 0000 0000.
Jun  1 17:15:59 serveur kernel: eth0: Transmit timeout, status 0d 0000 media 08.
Jun  1 17:15:59 serveur kernel: eth0: Tx queue start entry 615  dirty entry 611.
Jun  1 17:15:59 serveur kernel: eth0:  Tx descriptor 0 is 000802c1.
Jun  1 17:15:59 serveur kernel: eth0:  Tx descriptor 1 is 10080042.
Jun  1 17:15:59 serveur kernel: eth0:  Tx descriptor 2 is 00080042.
Jun  1 17:15:59 serveur kernel: eth0:  Tx descriptor 3 is 000825ea. (queue head)


Merci d'avance
Avatar de l’utilisateur
tito
Enseigne de vaisseau
Enseigne de vaisseau
 
Messages: 148
Inscrit le: 20 Mai 2003 00:00

Messagepar MasterSleepy » 04 Juin 2004 15:51

Salut,

Je suis pas super expert en la matière, mais je commencerais par changer la carte réseau eth0.
Elle sent le pâté celle que tu as.

A+
"Microsoft fera quelque chose qui ne plantera jamais quand ils commenceront à fabriquer des clous "
http://www.vanhees.cc
Avatar de l’utilisateur
MasterSleepy
Amiral
Amiral
 
Messages: 2625
Inscrit le: 24 Juil 2002 00:00
Localisation: Belgique

Messagepar tito » 04 Juin 2004 17:22

Merci MasterSleepy.
Je vais essayer ce que tu me conseilles. Mais que penser de ces
    "kernel: VFS: file-max limit 4096 reached"
    "too many open files in system"
    "not enough free resources" ?

Je précise que je ne connais que très peu Linux
Avatar de l’utilisateur
tito
Enseigne de vaisseau
Enseigne de vaisseau
 
Messages: 148
Inscrit le: 20 Mai 2003 00:00

Messagepar MasterSleepy » 04 Juin 2004 21:19

J'avais pas fait attention à ces trois lignes là.
Alors voilà ce que j'ai trouvé sur ce message
http://www.linux.org.ve/archivo/l-linux-2000-December/022239.html

OK c'est en Espagnol, mais un coup de google et l'affaire est réglé.
Enfin bref le principale n'est pas le language, le plus important est les commandes utilisées :
Code: Tout sélectionner
echo 32768 > /proc/sys/fs/file-max


Voilà qui pourrai peut-être résoudre ce message.

A+
"Microsoft fera quelque chose qui ne plantera jamais quand ils commenceront à fabriquer des clous "
http://www.vanhees.cc
Avatar de l’utilisateur
MasterSleepy
Amiral
Amiral
 
Messages: 2625
Inscrit le: 24 Juil 2002 00:00
Localisation: Belgique

Messagepar tito » 08 Juin 2004 15:43

Merci.
Avatar de l’utilisateur
tito
Enseigne de vaisseau
Enseigne de vaisseau
 
Messages: 148
Inscrit le: 20 Mai 2003 00:00

Messagepar sibsib » 08 Juin 2004 21:17

tito a écrit:Merci MasterSleepy.
Je vais essayer ce que tu me conseilles. Mais que penser de ces
    "kernel: VFS: file-max limit 4096 reached"
    "too many open files in system"
    "not enough free resources" ?
Je précise que je ne connais que très peu Linux


Salut,

J'ai su faire çà aussi ... J'avais créé un process qui engendrait un process qui ....

Dans mon cas, j'étais arrivé à court de mémoire avant les open files, mais on peut supposer que sur SME, si tu arrives à avoir plus de 4096 open files simultanés,

Soit c'est un process qui ne s'arrête pas
(çà, çà se voit avec la commande top : tout en haut à gauche tu as le nombre de processes .
Sur ma machine (uptime 75 jours) 143 processes. C'est a peu près stable
Si sur ta machine, tu constates que tous les jours, le nombre de process augmente, il faudra chercher le coupable.

Soit c'est un process qui s'est mal terminé, et qui arrive a laisser des ressources verrouillées.
Cà, çà risque d'être un peu plus craignos à trouver... Mais c'est normalement plus rare sous Linux que chez Bill

En tous cas, une belle surveillance de top t'en diras peut-être plus que moi (qui suis pourtant bavard ;-) )

A+,
Pascal
Sibsib, admin heureux d'un petit SME !!!
- SME 8.0 beta 6 dans une VM :-)
- ESXI 4.1 sur hardware noname
Ma petite page sur SME
Avatar de l’utilisateur
sibsib
Amiral
Amiral
 
Messages: 2368
Inscrit le: 11 Mai 2002 00:00
Localisation: France - région parisienne


Retour vers E-Smith / SME Server

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 1 invité