Crash Raid 1, analyse disque dur et changement.

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server

Modérateur: modos Ixus

Crash Raid 1, analyse disque dur et changement.

Messagepar cyberjuls » 26 Mars 2007 09:19

Salut,

bon voilà, je tourne sur une esmith 6.1 depuis un moment déjà avec 2 DD Maxtor 40 Go en Raid 1.
Dernièrement suite à un déménagement, le serveur ne redémarre plus très bien, en tout cas pas tout seul.

Suite à l'analyse des différents topic sur ce sujet j'ai donc fait ceci:

Code: Tout sélectionner
Personalities : [raid1]
read_ahead 1024 sectors
md2 : active raid1 hdc3[1]
      264960 blocks [2/1] [_U]

md1 : active raid1 hdc2[1]
      39776832 blocks [2/1] [_U]

md0 : active raid1 hdc1[1]
      104320 blocks [2/1] [_U]

unused devices: <none>


Visiblement j'ai un disque le Hda qui est tombé en rade. Voulant être sûr qu'il s'agit bien du Hda, j'ai fait cette manip pour avoir la liste des périphériques de monn serveur :
Code: Tout sélectionner
[root@cube root]# ls /proc/ide/
drivers  hda  hdc  hdd  ide0  ide1


Hdd étant le lecteur de cd.

Donc jusque là tout est ok, j'essaye de lancer un smartctl sur mon hda, mais là impossible (il faut l'activer, sauf que visiblement c impossible :
Code: Tout sélectionner
[root@cube root]# smartctl -a /dev/hda
Device: Maxtor N40P  Supports ATA Version 7
Drive supports S.M.A.R.T. and is disabled
Use option -e to enable
[root@cube root]# smartctl -e /dev/hda
Smart Enable failed: Input/output error
Smartctl: Smart Enable Failed

Là je me dis que mon disque est vraiment mort, mais comment le savoir, ou en être sûr?
Sinon je fait la même manip sur mon hdc restant histoir de savoir un peu ce qu'il se passe de ce coté, et comme je suis un énorme newbie sur linux, je suis incapable d'interpréter la sortie de la commande smartctl que voici :
Code: Tout sélectionner
[root@cube root]# smartctl -a /dev/hdc
Device: Maxtor 6E040L0  Supports ATA Version 7
Drive supports S.M.A.R.T. and is enabled
Check S.M.A.R.T. Passed.

General Smart Values:
Off-line data collection status: (0x80) Offline data collection activity was
                                        never started

Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run

Total time to complete off-line
data collection:                 (1021) Seconds

Offline data collection
Capabilities:                    (0x5b)SMART EXECUTE OFF-LINE IMMEDIATE
                                        Automatic timer ON/OFF support
                                        Suspend Offline Collection upon new
                                        command
                                        Offline surface scan supported
                                        Self-test supported

Smart Capablilities:           (0x0003) Saves SMART data before entering
                                        power-saving mode
                                        Supports SMART auto save timer

Error logging capability:        (0x01) Error logging supported

Short self-test routine
recommended polling time:        (   2) Minutes

Extended self-test routine
recommended polling time:        (  17) Minutes

Vendor Specific SMART Attributes with Thresholds:
Revision Number: 16
Attribute                    Flag     Value Worst Threshold Raw Value
(  3)Spin Up Time            0x0027   220   220   063       3054
(  4)Start Stop Count        0x0032   253   253   000       22
(  5)Reallocated Sector Ct   0x0033   253   253   063       0
(  6)Read Channel Margin     0x0001   253   253   100       0
(  7)Seek Error Rate         0x000a   253   252   000       0
(  8)Seek Time Preformance   0x0027   248   248   187       33510
(  9)Power On Hours          0x0032   252   252   000       24097
( 10)Spin Retry Count        0x002b   253   252   157       0
( 11)Calibration Retry Count 0x002b   253   252   223       0
( 12)Power Cycle Count       0x0032   253   253   000       179
(192)Power-Off Retract Count 0x0032   253   253   000       20
(193)Load Cycle Count        0x0032   253   253   000       42
(194)Temperature             0x0032   253   253   000       34
(195)Hardware ECC Recovered  0x000a   253   252   000       3139
(196)Reallocated Event Count 0x0008   253   253   000       0
(197)Current Pending Sector  0x0008   253   253   000       0
(198)Offline Uncorrectable   0x0008   253   253   000       0
(199)UDMA CRC Error Count    0x0008   199   199   000       0
(200)Unknown Attribute       0x000a   253   252   000       0
(201)Unknown Attribute       0x000a   253   249   000       13
(202)Unknown Attribute       0x000a   253   252   000       0
(203)Unknown Attribute       0x000b   253   252   180       5
(204)Unknown Attribute       0x000a   253   252   000       0
(205)Unknown Attribute       0x000a   253   252   000       0
(207)Unknown Attribute       0x002a   253   252   000       0
(208)Unknown Attribute       0x002a   253   252   000       0
(209)Unknown Attribute       0x0024   253   253   000       0
( 99)Unknown Attribute       0x0004   253   253   000       0
(100)Unknown Attribute       0x0004   253   253   000       0
(101)Unknown Attribute       0x0004   253   253   000       0
SMART Error Log:
SMART Error Logging Version: 1
Error Log Data Structure Pointer: 05
ATA Error Count: 41
Non-Fatal Count: 0

Error Log Structure 1:
DCR   FR   SC   SN   CL   SH   D/H   CR   Timestamp
08   00   08   83   2b   c9    e4   c4     22966
0e   00   08   83   2b   c9    e4   c4     22966
08   00   3f   3f   fb   ff    ef   91     22966
08   00   3f   00   00   00    e0   10     22966
08   00   08   83   2b   c9    e4   20     22966
00   04   08   83   2b   c9    e4   59     26636

Error Log Structure 2:
DCR   FR   SC   SN   CL   SH   D/H   CR   Timestamp
08   00   00   00   00   00    e0   c6     240
08   02   00   00   00   00    e0   ef     240
08   00   08   00   00   00    e0   c8     240
08   00   00   00   00   00    e0   e7     240
08   00   40   3f   00   00    e0   c8     360
00   84   00   3f   00   00    e0   51     126386

Error Log Structure 3:
DCR   FR   SC   SN   CL   SH   D/H   CR   Timestamp
08   02   00   00   00   00    e0   ef     240
08   00   08   00   00   00    e0   c8     240
08   00   00   00   00   00    e0   e7     240
08   00   40   3f   00   00    e0   c8     360
08   00   40   3f   00   00    e0   c8     360
00   84   00   3f   00   00    e0   51     126386

Error Log Structure 4:
DCR   FR   SC   SN   CL   SH   D/H   CR   Timestamp
08   00   00   00   00   00    e0   e7     240
08   00   40   3f   00   00    e0   c8     360
08   00   40   3f   00   00    e0   c8     360
08   00   ff   00   00   00    e0   10     360
08   00   40   3f   00   00    e0   c8     360
00   84   00   3f   00   00    e0   51     126386

Error Log Structure 5:
DCR   FR   SC   SN   CL   SH   D/H   CR   Timestamp
08   00   40   3f   00   00    e0   c8     360
08   00   40   3f   00   00    e0   c8     360
08   00   ff   00   00   00    e0   10     360
08   00   40   3f   00   00    e0   c8     360
08   00   40   3f   00   00    e0   c8     360
00   84   00   3f   00   00    e0   51     126386


Si quelqu'un peu me donner une idée de ce qu'il y a ça serait super. J'ai une sauvegarde externe sur disque dur de toutes les données stockées dans les ibays, la config de mon serveur étant sommaire (domaine, hylafax, web).
Au fait peut-on remplacer donc ce disque dur de 40Go par un autre différent, d'une autre marque et/ou d'une capacité égale ou supérieure en appliquant le tutorial de Dmay?
Avatar de l’utilisateur
cyberjuls
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 14 Jan 2004 01:00

Messagepar cyberjuls » 26 Mars 2007 12:02

Suite à la lecture de quelques articles j'ai exécuté cette commande :

Code: Tout sélectionner
[root@cube root]# hdparm -i /dev/hda

/dev/hda:

Model=Maxtor N40P, FwRev=NAR6159Z, SerialNo=
Config={ Fixed }
RawCHS=16383/16/63, TrkSize=0, SectSize=0, ECCbytes=57
BuffType=DualPortCache, BuffSize=2048kB, MaxMultSect=16, MultSect=off
CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=80293332
IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
PIO modes: pio0 pio1 pio2 pio3 pio4
DMA modes: mdma0 mdma1 *mdma2 udma0 udma1 udma2 udma3 udma4 udma5 udma6
AdvancedPM=yes: disabled (255) WriteCache=enabled
Drive Supports : ataATA-1 ATA-2 ATA-3 ATA-4 ATA-5 ATA-6 ATA-7


Visiblement le Hda ne renvoit pas de sérial number, le Hdc oui.
Je pense que le Hda est mort? vous en pensez quoi?
Avatar de l’utilisateur
cyberjuls
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 14 Jan 2004 01:00

Messagepar antolien » 26 Mars 2007 12:18

Je pense qu'il y a mdadm sur sme ?
que te donne la commande mdadm -Q --detail /dev/md0 ?
mdadm -Q --detail /dev/md1 ?
Avatar de l’utilisateur
antolien
Amiral
Amiral
 
Messages: 3134
Inscrit le: 31 Août 2002 00:00

Messagepar jdh » 26 Mars 2007 13:36

Pour voir si hda est bon ou pas, tu peux aussi arrêter ton SME, le débrancher du réseau, déconnecter le disque hdc et démarrer. C'est radical comme analyse !
Avatar de l’utilisateur
jdh
Amiral
Amiral
 
Messages: 4741
Inscrit le: 29 Déc 2002 01:00
Localisation: Nantes

Messagepar antolien » 26 Mars 2007 13:43

un peu violent jdh ?
avec la commande mdadm -Q --detail , tu sais tout de suite quel disque est deffectueux sans rien arrêter.
Avatar de l’utilisateur
antolien
Amiral
Amiral
 
Messages: 3134
Inscrit le: 31 Août 2002 00:00

Messagepar cyberjuls » 26 Mars 2007 13:52

Code: Tout sélectionner
[root@cube root]# mdadm -Q --detail /dev/md0
/dev/md0:
        Version : 00.90.00
  Creation Time : Thu Aug 25 13:37:57 2005
     Raid Level : raid1
     Array Size : 104320 (101.87 MiB 106.82 MB)
    Device Size : 104320 (101.87 MiB 106.82 MB)
   Raid Devices : 2
  Total Devices : 1
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Wed Jan 24 00:25:21 2007
          State : dirty, no-errors
Active Devices : 1
Working Devices : 1
Failed Devices : 0
  Spare Devices : 0


    Number   Major   Minor   RaidDevice State
       0       0        0        0      faulty removed
       1      22        1        1      active sync   /dev/hdc1
           UUID : e7a68316:9a876c5d:78a94fd6:b69df090
[root@cube root]# mdadm -Q --detail /dev/md1
/dev/md1:
        Version : 00.90.00
  Creation Time : Thu Aug 25 13:34:48 2005
     Raid Level : raid1
     Array Size : 39776832 (37.93 GiB 40.73 GB)
    Device Size : 39776832 (37.93 GiB 40.73 GB)
   Raid Devices : 2
  Total Devices : 1
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Wed Jan 24 00:25:21 2007
          State : dirty, no-errors
Active Devices : 1
Working Devices : 1
Failed Devices : 0
  Spare Devices : 0


    Number   Major   Minor   RaidDevice State
       0       0        0        0      faulty removed
       1      22        2        1      active sync   /dev/hdc2
           UUID : 6a1cce67:91b0c1b7:f152e749:d7272af1


J'espérais peut être que ca pouvait venir de la nappe ide, on n esait jamais! Enfin, je vais essayer de faire des test physique en débranchant et rebranchant chaque disque dur pour faire le tour de toutes les options possible.

Visiblement je vais être obliger de remplacer ce disque dur. Donc voici ma question, j'ai bien lu tout les tutoriaux disponible sur ce site et ailleurs, j'en ai plus ou moins compris la méthodologie, j'ai bien retenu la phase sauvegarde avant de faire quoi que ce soit sauf que, pour trouver un maxtor de 40Go aujourd'hui....
Donc que faire dans ce cas?
Acheter un disque dur ide sata qui fera probablement 160Go? En acheter 2, synchroniser le premier, puis remplacer le maxtor de 40Go valide restant par l'autre disque de 160Go pour pouvoir avoir un serveur de 160Go à terme?

voilà, vu le nombre de questions, je ne les poserais pas toutes, mais par contre j'aimerais bien participer à l'élaboration d'un sujet post-it relatif au diagnostics crash et réparation de Raid 1 sous Sme pour les gros newbie avec un didactitiel sur les commandes à connaitre, leur action etc...

a+
Avatar de l’utilisateur
cyberjuls
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 14 Jan 2004 01:00

Messagepar antolien » 26 Mars 2007 16:29

Peut-être que tu peux déjà, faire un test de ton hda, si ça se trouve il a rien, il y a peut-être la synchro qui a juste sautée.

hdparm -t /dev/hda
ça doit te retourner une valeur aux alentours de 60MB/s

fdisk -l /dev/hda
pour voir si tu as encore ta table de partitions sur le disque.

si tout a l'air ok, tu retire et ajoute les partitions des différents raids
mdadm -r /dev/md0 /dev/hda1 (enlève le faulty)
mdadm -a /dev/md0 /dev/hda1 (ajoute)

cat /proc/mdstat devrait te dire qu'il est en train de synchro.
tu fais la même chose pour chaque partion une fois que la synchro a l'air ok.

tiens nous au courant.
Avatar de l’utilisateur
antolien
Amiral
Amiral
 
Messages: 3134
Inscrit le: 31 Août 2002 00:00

Messagepar cyberjuls » 26 Mars 2007 16:37

Ok j'essaiyerais un peu plus tard, là je suis en train d'installer la 7.1 sur 2 disques de 80 Go en SATA pour avoir une solutiond erepli rapide

sinon j'ai essayer de brancher seulement le hda tout seul, ben le bios n'est pas content, il ne le détecte même pas.
Par précaution je vais quand même essayer ta manip pour voir ce qu'elle donne histoire de montrer à ces hdx qui commande!!!

a+
Avatar de l’utilisateur
cyberjuls
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 14 Jan 2004 01:00

Messagepar antolien » 26 Mars 2007 16:46

En effet si le bios ne le detecte pas, c'est pas la peine de regarder plus loin, il faut le changer.
l'option maximize (que tu peux ajouter avec cfdisk sur les nouvelles partions) évite d'avoir un pb de superbloc lorsque les partitions ne sont pas exactement de la même taille (enfin de souvenir).
Avatar de l’utilisateur
antolien
Amiral
Amiral
 
Messages: 3134
Inscrit le: 31 Août 2002 00:00

Messagepar cyberjuls » 26 Mars 2007 18:56

Bon j'ai remonté mon serveur avec mon vieux disque dur.

j'ai appliqué les manips indiquée dont voici les résultats :

Code: Tout sélectionner
[root@cube root]# ls /proc/ide
drivers  hdc  ide1

[root@cube root]# hdparm -t /dev/hda
/dev/hda: No such device or address
[root@cube root]# hdparm -t /dev/hdc

/dev/hdc:
Timing buffered disk reads:  64 MB in 10.19 seconds =  6.28 MB/sec
[root@cube root]# fdisk -l /dev/hda
[root@cube root]# fdisk -l /dev/hdc

Disque /dev/hdc : 255 têtes, 63 secteurs, 4998 cylindres
Unités = cylindres sur 16065 * 512 octets

Périphérique Amorce    Début       Fin    Blocs   Id  Système
/dev/hdc1   *         1        13    104391   fd  Détection auto RAID Linux
/dev/hdc2            14      4965  39776940   fd  Détection auto RAID Linux
/dev/hdc3          4966      4998    265072+  fd  Détection auto RAID Linux
[root@cube root]#


J'ai fait un petit ls, mais je n'ai plus de ide 0 comme avant??? ni de hda d'ailleurs.
je vérifie les branchements et je vous tiens au courant.

a+

Apparement rien a faire, toujours les même résultats.
Avatar de l’utilisateur
cyberjuls
Second Maître
Second Maître
 
Messages: 43
Inscrit le: 14 Jan 2004 01:00


Retour vers E-Smith / SME Server

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 1 invité