Quelques heures dans la peau de TitaX, la suite
Par jeanseb le dimanche, juillet 29 2007, 22:09 - Dev's Blog - Lien permanent
Suite de mes aventures.
Le serveur est retombé le 19 juillet. Donc la mise à jour du controleur RAID et des disque dur n'a rien changé.
Recontact avec Dell.
On a d'abord tenté d'installer l'utilitaire DSET (Utilitaire de support pour systèmes Dell) mais comme c'est du Debian, ca passe pas ( Dell supporte uniquement les produits RedHat ).
Rendez vous fut pris pour utiliser un LiveCD ( basé sur REHL 4.4 ) afin d'accéder aux journaux systèmes.
Les logs ne contenaient rien de vraiment intéressants. M'enfin il faut quand même remarquer que la machine est tombé trois fois:
- Le 27 juin 2007 ( date du constat, cela peut être la veille )
- Le 03 juillet 2007
- Le 19 juillet 2007 à 19h30
Et que à des dates similaires, il s'est produit la perte de l'une des alimentations redondantes:
Severity : Critical
Date and Time : Tue Jun 26 17:21:50 2007
Description : PS 1 Status: power supply sensor for PS 1, failure was asserted
Severity : Critical
Date and Time : Tue Jun 26 17:21:51 2007
Description : System Board PS Redundancy: PS redundancy sensor for System Board, redundancy lost
Severity : Critical
Date and Time : Tue Jun 26 17:21:51 2007
Description : PS 1 Status: power supply sensor for PS 1, input lost was asserted
- Le 26 juillet 2007 - 17h21
- Le 19 juillet 2007 - 18h17
Quel peut être le lien entre un disque dur en read-only et un problème électrique?
- Surtension ?
- Mauvaise isolation électrique?
- Court-circuit ?
Il reste que Dell pour l'instant ne croit pas au problème hardware mais à un problème de l'OS, on est donc passé sous CentOS 5 ( non supporté par Dell mais c'est du REHL à 99.999% ).
Commentaires
Décidement il t'en donne du mal ce serveur.
Une fois sur centos je crois qu'il est possible d'installer le logiciel OpenManage qui permet de lire les logs, de surveiller pas mal de composants hardware grâce à une interface web.
C'est DSET qui fait ca. Je l'ai installé.
Ca génère une série d'infos en HTML: log hardware, info sur le système etc...
Serveur retombé hier midi ( Dernier cron horaire à 11h01 ).
Pas de problème de redondance d'alim dans les logs. Bon je rentre de vacances mercredi prochain. Z'ont intérêt de se bouger la chez Dell...
Bon il est maintenant clair qu'il y a un problème hardware sur le serveur.
Il faut que DELL dépèche un technicien pour changer le serveur.