[SOS] reboot intempestif SME 6

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server

Modérateur: modos Ixus

[SOS] reboot intempestif SME 6

Messagepar muaddib » 12 Avr 2005 21:02

Bonjour,

J'ai vraiment besoin d'aide ... J'ai ma SME depuis quelques jours qui reboote regulierement ... Et de plus en plus souvent j'ai l'impression ... Sans qu je sache pourquoi... A chaque fois, j'ai droit a une resynchronisation du raid logiciel, ce qui semblerait logique, d'apres ce que j'ai vu ici et la ...

J'ai regardé dazns le /var/log/messages, rien ...

Ou est ce que je pourrais en savoi plus surles raisons ? Y a t il un log qui sera plus locace ???
Avatar de l’utilisateur
muaddib
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 30 Avr 2003 00:00

Messagepar romain138 » 12 Avr 2005 23:16

Salut,

Moi j'ai eu le même problème. C'était la RAM qui était défaillante. Pour la tester (la RAM) télécharge le logiciel gratuit MEMTEST : http://www.memtest86.com/memtest86-3.2.iso.zip

C'est une image ISO à graver cur un cd ou CD RW

Maintenant, cela peut être autre chose .. Mais c'est un début.

Bon courage.
Romain, the Toulousain
Avatar de l’utilisateur
romain138
Enseigne de vaisseau
Enseigne de vaisseau
 
Messages: 136
Inscrit le: 06 Déc 2003 01:00
Localisation: Toulouse

Messagepar mathieutlse » 13 Avr 2005 10:26

bonjour !

pour memtest tu peux aussi l'inclure dans lilo, c'est ce que j'ai fait car je n'ai pas de lecteur.

Code: Tout sélectionner
# Comment ajouter memtest à lilo

# Télécharger la version Download - Pre-Compiled Bootable Binary (.gz)
# Sur http://www.memtest.org/

wget http://www.memtest.org/download/1.55.1/memtest86+-1.55.1.bin.gz
gunzip memtest86+-1.55.1.bin.gz

# Ajouter cette ligne à /etc/lilo.conf

image=/boot/memtest86+-1.55.1.bin
        label="memtest-1.55.1"

# Prendre en compte les modifications du fichier lilo.conf
# Faire un expand du fichier /etc/lilo.conf
/sbin/e-smith/expand-template /etc/lilo.conf

#Redémarrer le serveur
/sbin/e-smith/signal-event reboot

sélèctionner la nouvelle entrer dans le menu lilo


sinon as tu smeadmin ? afin de vérifier les courbes de température de ton matériel ?

a+
Avatar de l’utilisateur
mathieutlse
Enseigne de vaisseau
Enseigne de vaisseau
 
Messages: 148
Inscrit le: 22 Août 2003 00:00
Localisation: toulouse

Messagepar jibe » 13 Avr 2005 23:43

Salut,

Il peut y avoir une foule de raisons ! Essaie de voir quand les reboot se produisent, ça peut aider, bien que ce ne soit pas toujours évident... Les deux causes les plus fréquentes sont celles qui t'ont été données :
- RAM : dans ce cas, le reboot a généralement lieu de manière très aléatoire.
- Problème thermique : dans ce cas, le reboot a lieu au bout d'un certain temps de fonctionnement, dépendant du temps de refroidissement préalable et de la température ambiante...

La RAM est très simple à tester, comme on te l'a expliqué plus haut. Au pire, si tu as des barrettes sous la main, tu les changes (voire tu n'en laisses qu'une si tu en as deux) pour voir. Le problème thermique peut être assez difficile à localiser. SMEAdmin peut effectivement te rendre de grands services. SInon, essaie de te procurer une bombe réfrigérante et refroidis un par un les éléments de ton serveur. C'est un travail de patience, mais on arrive souvent ainsi à déterminer à coup sûr le fautif lorsqu'on n'a pas d'autres moyens.

Au fait, quelque chose a-t-il été changé dans ton serveur ? Attention aux alims surchargées qui peuvent soit disjoncter soit surchauffer...
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar Landry » 14 Avr 2005 09:21

jibe a écrit:SMEAdmin peut effectivement te rendre de grands services.


Merci, merci, merci ... 8)
Mais c'est sme6admin ..... :D


ps : merci mathieuise pour le memtest dans lilo, j'y avais pas pensé ... mais ca me resoudra pas mes kernels panics qui arrivent qu'en faisant du ftp, c pas assez "aleatoire"...
Avatar de l’utilisateur
Landry
Enseigne de vaisseau
Enseigne de vaisseau
 
Messages: 149
Inscrit le: 16 Juin 2004 16:42
Localisation: Rennes

Messagepar jibe » 14 Avr 2005 21:12

Salut,

Landry a écrit:Mais c'est sme6admin ..... :D

:oops: C'est vrai ! J'ai repris ce que disait mathieutlse sans même remarquer la faute de frappe...
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar mathieutlse » 14 Avr 2005 21:55

désolé Landry pour la faute de frappe.

en fait pour les kernels panics il me semblait les avoir résolu en changeant la mémoire, et en fait ils sont revenu, mais moins souvent...
j'ai fait un backup et une réinstallation du système, avec le meme matériel et plus aucun problème (depuis 15 jours). c'est donc bien un problème logiciel... peut être essayé de remettre le kernel de base pour sme...

a+
Avatar de l’utilisateur
mathieutlse
Enseigne de vaisseau
Enseigne de vaisseau
 
Messages: 148
Inscrit le: 22 Août 2003 00:00
Localisation: toulouse

Messagepar muaddib » 15 Avr 2005 11:10

Merci à tous pour vos idées !!

Il semblerait que ce soit en fait MLDonkey ... Bon .. il se trouve que j'ai aussi un probleme de chauffe de mes disques durs, ils tournent autour de 50°, ce qui est beaucoup je trouve ... (qu'est ce que vous en pensez ?).

Mais une fois mldonkey enlevé depuis 2 jours, ben j'ai plus de problemes ...
Avatar de l’utilisateur
muaddib
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 30 Avr 2003 00:00

Messagepar mathieutlse » 15 Avr 2005 13:41

pour info la température de mes disques dur sont à 38° et 42° et processeur à 46° (athlon 1,2G).

je ne sais pas si 50° c'est trop... :(
Avatar de l’utilisateur
mathieutlse
Enseigne de vaisseau
Enseigne de vaisseau
 
Messages: 148
Inscrit le: 22 Août 2003 00:00
Localisation: toulouse

Messagepar jibe » 15 Avr 2005 20:19

Salut,

J'ai toujours estimé la température avec mon instrument favori : le pifomètre :lol:
50°C, c'est le seuil de la douleur, c'est à dire qu'en dessous, c'est supportable, en-dessus ça brûle. Donc, c'est une température relativement facile à estimer pifométriquement à un ou deux degrés près. Et c'est une température que j'ai souvent constaté pour des disques. AMHA, ça n'arrange pas trop leur durée de vie, mais ce n'est pas encore affolant.

En tous cas, je ne pense pas que ce soit l'origine du problème de reboot. S'il est dû à un problème de température, ce serait plutôt à cause de celle du proc ou de l'alim.

Par contre, MLDonkey, je n'ai jamais aimé, l'ai toujours soupçonné de $%#&! la m*** et ce que tu me dis ne va pas me faire changer d'avis :mrgreen:
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar muaddib » 17 Avr 2005 22:31

Bon ben en fait ... il semblerait que ce ne soit pas mldonkey ... Les reboots continuent ... :(

Je vais demain matin faire le test de la memoire ... Mais je m'orient de plus en plus vers nu probleme matériel ... Qu'en pensez vous ?
Avatar de l’utilisateur
muaddib
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 30 Avr 2003 00:00

Messagepar echelon75 » 18 Avr 2005 14:45

Bonjour,

Sur un proliant j'avais un probleme de reboot souvent et parfois jamais de reboot pendant 2 jours.
Apres echange des disques je me suis apercu que c'etait des microcoupures chez MR EDF
La mise en place d'un onduleur a resolu mon probleme et ce qui est bizarre ,j'avais des PC dell sur la meme ligne electric et il fonctionnaient correctement.
Donc je pense que les alim doivent etre plus moin sensible

A+

Richard
---------------------------------------------------
Petit proliant 1600 192Mo 9Go en ligne
ADSL 512Ko sur magic.fr et bientot sur Freu
---------------------------------------------------
Je cherche de la RAM pour mon Proliant????
Avatar de l’utilisateur
echelon75
Major
Major
 
Messages: 84
Inscrit le: 15 Mars 2004 01:00

Messagepar micjack » 18 Avr 2005 15:10

Salut,

C'est vraiement trop vague comme panne pour avoir un avis concret, il reste à faire le trie de chacun ayant connu ce type de probleme...

Par exemple, y'a une quinzaine de jours, mon firewall se coupait et redemarrait tout seul...Des fois il tennait une journée, ou rebootait cinq à six fois par jours sans raison.. Il s'allumait meme tout seul apres une fin d'utilisation (meme la nuit)

j'ai changé l'alimentation et tout est rentré dans l'ordre :D
micjack
Amiral
Amiral
 
Messages: 3113
Inscrit le: 06 Juin 2003 00:00
Localisation: Varois

Messagepar jibe » 18 Avr 2005 20:09

Salut,

Effectivement, comme dit micjack, les causes peuvent être multiples et on manque totalement de précisions. Tout ce qu'on peut faire, c'est donner des pistes, des tests à effectuer pour mieux localiser le problème.

Les avis donnés ici, en gros, sont tous valables. Mais en tant que choses à vérifier seulement. En plus de la RAM et des problèmes thermiques cités plus haut, on peut effectivement ajouter celui des micro-coupures : en effet, la conception des alimentations fait que certaines y sont extrêmement sensibles et provoquent un reboot à une micro-coupure non perceptible (pas d'effet sur l'éclairage par ex.) et d'autres résistent à des coupures plus longues, lorsqu'il y a par exemple brève mais nette extinction de l'éclairage. Le seul remède dans ce cas est effectivement l'onduleur (et si l'alim est très sensible, ne pas choisir un modèle à commutation !). Mais attention aussi aux alims trop faiblement dimensionnées : prnedre 50 ou 100w de plus évite parfois des déboires, d'autant que le calcul de puissance nécessaire est toujours approximatif.

Donc, il faut localiser le problème par des tests systématiques : test mémoire, vérifications de température et essais de refroidissement, essai pendant quelques jours avec un onduleur... C'est le seul moyen de localiser le problème.

Concernant l'onduleur, les prix deviennent tellement abordables que je dirais que les avantages qu'ils apportent valent largement la dépense (il est entre autres un fait certain qu'ils améliorent la durée de vie du matériel, dont les disques durs...)
"Le monde ne sera pas détruit par ceux qui font le mal, mais par ceux qui les regardent sans rien faire" (Albert Einstein)

Autrefois, l'Etat défendait des valeurs. Maintenant, il défend des profits... (Anne Haunnime)
Avatar de l’utilisateur
jibe
Amiral
Amiral
 
Messages: 4366
Inscrit le: 17 Oct 2003 00:00
Localisation: Haute Savoie

Messagepar muaddib » 19 Avr 2005 12:01

Bon ben g testé la mémoire pendant 23h30 !! :D Et c pas ca ... il a trouvé aucune erreur.... :( :(

A lire vos postes, je m'orient de plus en plus vers un probleme d'alim ... D'autant plus que je viens de regarder au boot dema machine, sur l'écran s'affiche différentes tensions, avec des fourchettes min et max, ety ^pour certaines d'entre elles, je ne suis pas dansla fourchette ... Est ce que c veut dire qq chose, j'en sais rien mais bon ....

Ce qui m'$%#&!, c'est qu'elle est toute neuve !! Elle a a peine 2 mois ... Et evidemment ca va etre impossible de faire jouer la garantie, parce qu'evidemment, elle marche quand meme ...
Avatar de l’utilisateur
muaddib
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 30 Avr 2003 00:00

Suivant

Retour vers E-Smith / SME Server

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 1 invité