Opublikowano:

Dysk pada przy dużym i długim IO?

Pozwolicie że zacytuje moje zgłoszenie do pomocy technicznej:

Cytat:

Witam, wczoraj rano z macierzy RAID wyleciał mi dysk SDB. Po długim szukaniu błędu, pomyślałem że popsuł się dysk(dziwne, serwer jest nowy a dysk przepracował niecałe 400 godzin). Wszedłem do trybu rescure i… macierze działają, udało mi się je przebudować. Na wszelki wypadek zrobiłem kopie na inny serwer, zrobiłem reboota do vKVM i… od razu przywitał mnie kernel panic. Nie widziałem nagłówka błędu, więc nie jestem pewien co było jego przyczyną. Postanowiłem zreinstalować serwer i przerzucić dane z serwera na którym miałem kopię. Po kilku godzinach wróciłem i widze taki oto piękny komunikat błędu:
Read-only file system (30)
rsync error: error in file IO (code 11) at receiver.c(302) [receiver=3.0.7]
rsync: connection unexpectedly closed (185 bytes received so far) [generator]
rsync error: error in rsync protocol data stream (code 12) at io.c(601) [generator=3.0.7]
root@beep:/# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sdb1[2](F) sda1[0]
203712 blocks [2/1] [U_]

md2 : active raid1 sdb2[2](F) sda2[0]
20478912 blocks [2/1] [U_]

md4 : active raid0 sdb4[1] sda4[0]
1903955840 blocks 64k chunks

unused devices: <none>
root@beep:/#

Smartctrl pokazywał takie rzeczy:
root@beep:/# smartctl –all /dev/sdb
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

Short INQUIRY response, skip product id
A mandatory SMART command failed: exiting. To continue, add one or more ‚-T permissive’ options.
root@beep:/# smartctl -T permissive –all /dev/sdb
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

Short INQUIRY response, skip product id
SMART Health Status: OK
Read defect list: asked for grown list but didn’t get it

Error Counter logging not supported
Device does not support Self Test logging
root@beep:/#sd 1:0:0:0: [sdb] Unhandled error code
sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 0b f0 54 01 00 04 00 00
end_request: I/O error, dev sdb, sector 200299521
program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
EXT4-fs (md4): ext4_da_writepages: jbd2_start: 27136 pages, ino 115347711; err -30

RAID1 conf printout:
— wd:1 rd:2
disk 0, wo:0, o:1, dev:sda2
JBD2: Detected IO errors while flushing file data on md4-8
sd 1:0:0:0: [sdb] Unhandled error code
sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 00 06 47 80 00 00 08 00
end_request: I/O error, dev sdb, sector 411520
end_request: I/O error, dev sdb, sector 411520
md: super_written gets error=-5, uptodate=0
raid1: Disk failure on sdb1, disabling device.
raid1: Operation continuing on 1 devices.
RAID1 conf printout:
— wd:1 rd:2
disk 0, wo:0, o:1, dev:sda1
disk 1, wo:1, o:0, dev:sdb1
RAID1 conf printout:
— wd:1 rd:2
disk 0, wo:0, o:1, dev:sda1
program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
IPv6 addrconf: prefix with wrong length 56
program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO
program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO

Czyli wszystko się powtarza. Myślę, że gdyby uruchomić duży zapis na macierzy spod systemu rescure, efekt byłby taki sam. Czy mogę prosić o sprawdzenie sprzętu, a w szczególności drugiego dysku? Tutaj zamieszczam dane z smartctrl pod rescure: http://wklej.org/id/503023/


Co o tym myślicie? Czy jeśli OVH będzie upierać się przy stanowisku że w rescure działa, przyda zapuscic się jakieś DD na macierzy aż się wysypie? Czy ktoś wie czym spowodowany może być ten problem?