X-Space

Aller au contenu | Aller au menu | Aller à la recherche

Quelques heures dans la peau de TitaX, la suite

Suite de mes aventures.

Le serveur est retombé le 19 juillet. Donc la mise à jour du controleur RAID et des disque dur n'a rien changé.

Recontact avec Dell.

On a d'abord tenté d'installer l'utilitaire DSET (Utilitaire de support pour systèmes Dell) mais comme c'est du Debian, ca passe pas ( Dell supporte uniquement les produits RedHat ).

Rendez vous fut pris pour utiliser un LiveCD ( basé sur REHL 4.4 ) afin d'accéder aux journaux systèmes.

Les logs ne contenaient rien de vraiment intéressants. M'enfin il faut quand même remarquer que la machine est tombé trois fois:

  1. Le 27 juin 2007 ( date du constat, cela peut être la veille )
  2. Le 03 juillet 2007
  3. Le 19 juillet 2007 à 19h30

Et que à des dates similaires, il s'est produit la perte de l'une des alimentations redondantes:

Severity : Critical
Date and Time : Tue Jun 26 17:21:50 2007
Description : PS 1 Status: power supply sensor for PS 1, failure was asserted

Severity : Critical
Date and Time : Tue Jun 26 17:21:51 2007
Description : System Board PS Redundancy: PS redundancy sensor for System Board, redundancy lost

Severity : Critical
Date and Time : Tue Jun 26 17:21:51 2007
Description : PS 1 Status: power supply sensor for PS 1, input lost was asserted

  1. Le 26 juillet 2007 - 17h21
  2. Le 19 juillet 2007 - 18h17
Je trouve la coïncidence troublante. Tellement troublante que j'ai envie de faire le test à mon retour de vacances si la machine n'est pas retombé d'ici la.

Quel peut être le lien entre un disque dur en read-only et un problème électrique?
  • Surtension ?
  • Mauvaise isolation électrique?
  • Court-circuit ?

Il reste que Dell pour l'instant ne croit pas au problème hardware mais à un problème de l'OS, on est donc passé sous CentOS 5 ( non supporté par Dell mais c'est du REHL à 99.999% ).




Commentaires

1. Le lundi, juillet 30 2007, 10:50 par TitaX

Décidement il t'en donne du mal ce serveur.
Une fois sur centos je crois qu'il est possible d'installer le logiciel OpenManage qui permet de lire les logs, de surveiller pas mal de composants hardware grâce à une interface web.

2. Le mardi, juillet 31 2007, 09:01 par ED

C'est DSET qui fait ca. Je l'ai installé.

Ca génère une série d'infos en HTML: log hardware, info sur le système etc...

3. Le mardi, août 14 2007, 11:15 par ED

Serveur retombé hier midi ( Dernier cron horaire à 11h01 ).

Pas de problème de redondance d'alim dans les logs. Bon je rentre de vacances mercredi prochain. Z'ont intérêt de se bouger la chez Dell...

4. Le mardi, août 14 2007, 18:05 par TitaX

Bon il est maintenant clair qu'il y a un problème hardware sur le serveur.
Il faut que DELL dépèche un technicien pour changer le serveur.