집에 작은 우분투 서버가 있고 2 개의 하드 드라이브가 있습니다. mdadm에 의해 관리되는 디스크에는 두 가지 소프트웨어 RAID (raid1)가 있습니다.
두 하드 드라이브는 모두 Western Digital이며, 그 중 하나가 딸깍 소리를 내기 시작하여 약 2 년간 사용되었습니다. 나는 2 년 후에 자연 스러울 것이라고 생각했기 때문에 새로운 것을 사서 급습 배열을 다시 동기화했습니다. 약 한 달 후 다른 드라이브도 사망했습니다.
두 드라이브를 동시에 구입했기 때문에 의심하지 않았습니다. 두 드라이브를 서로 가까이에서 보는 것이 그리 놀라운 일이 아니므로 다른 드라이브를 구입했습니다.
지금까지 2 개의 오래된 드라이브가 고장 났고 2 개의 새로운 시스템이 고장났습니다. 한 달 후 새 드라이브 중 하나가 사망했습니다. 이 때 의심스러워지기 시작했습니다. PC가 실제로 오래된 부품 (AthlonXP라고 생각)으로 구성되었으므로 마더 보드의 SATA 컨트롤러가 범인이라고 생각했습니다. 물론 이런 오래된 PC에서는 쉽게 부품을 전환 할 수 없으므로 전체 시스템, 새로운 MB, 새로운 CPU, 새로운 RAM을 구입했습니다. 보증 기간이 지났기 때문에 방금 실패한 드라이브를 다시 가져와 교체했습니다.
따라서 이전 드라이브에서 실패한 드라이브는 최대 2 개이고 새 드라이브에서 실패한 드라이브는 1 개입니다. 1 개월간 문제 없습니다. 그 후 / var / log / messages에서 오류가 다시 발생하고 mdadm이 급격한 어레이 오류를보고했습니다. 나는 머리를 찢기 시작했다. 시스템의 모든 것이 새롭고 세 번째 새 하드 드라이브에 달려 있습니다. 구입 한 모든 새 드라이브에 결함이있을 가능성은 없습니다.
여전히 일반적인 케이블 인 케이블을 보자. 좋아, 롱 샷, SATA 케이블을 교체하자. 하드 드라이브를 되찾고 카운터에있는 사람에게 미소를 짓고 내가 정말 운이 없다고 말합니다. 그는 하드 드라이브를 교체합니다. 한 달이 지나고 하드 드라이브 중 하나가 다시 고장납니다. 나 장난하는 거 아니야.
새로운 하드 드라이브 중 두 개가 고장났습니다. OS의 버그 일 수 있습니다. 제조업체의 테스트 도구가 말하는 것을 보자. 테스트 도구를 다운로드하여 CD에 굽고 재부팅 한 다음 하드 드라이브 테스트를 밤새도록 두십시오. 테스트에 따르면 드라이브에 결함이 있으며 여전히 가능하다면 모든 것을 백업해야합니다. 무슨 일이 일어나고 있는지 모르겠지만 소프트웨어 문제처럼 보이지는 않습니다. 무언가가 하드 드라이브를 혼란스럽게 만듭니다.
이제 전체 시스템이 신발 상자에 있다고 언급하겠습니다. "나만의 이케아 케이스 만들기"재료가 많이 있기 때문에 상자에 물건을 던져서 어딘가에 넣는 데 아무런 문제가 없을 것이라고 생각했습니다. 상자는 통풍이 잘되지만 드라이브가 과열 된 것 같습니다. 이에 대한 다른 가능한 대답은 없습니다. 그래서 하드 드라이브를 다시 가져 와서 (3 회째) 하드 드라이브 쿨러를 구입했습니다.
그리고 지금, 나는 운명의 소리를 들었다. whizzzzzzzzz를 클릭하십시오 . 상자에 SSH :
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesg 출력 :
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
요약 :
- 과열의 가능성 없음
- 6 개의 드라이브가 고장 났으며 그 중 4 개가 새것입니다. 나는 원래의 두 가지가 잘못되었거나 새 것과 같은 문제를 겪었는지 확실하지 않습니다.
- Ubuntu Karmic 인 OS와는 별도로 시스템에는 공통점이 없습니다 (Junty로 시작). 새로운 MB, 새로운 CPU, 새로운 RAM, 새로운 SATA 케이블.
- 아니요, 하드 드라이브의 작은 구멍은 덮지 않습니다
난 울고있어. 정말. 지금 상점으로 돌아 가야 할 얼굴이 없습니다. 4 개월 동안 4 개의 드라이브가 고장날 수 없습니다.
내가 생각한 몇 가지 아이디어 : 드라이브를 분할하고 다시 동기화 할 때 무언가를 엉망으로 만들 수 있습니까? 그것이 실제로 드라이브를 망칠 정도로 나쁠 수 있습니까? (공급 업체에서 제공 한 도구에 드라이브가 손상되었다고 표시되어 있으므로) fdisk로 파티션을 작성하고 raid1 파티션에 대해 동일한 블록 크기를 사용합니다 (fdisk -lu를 사용하여 정확한 블록 크기를 확인합니다)
Linux 커널 또는 mdadm 또는 다른 것이이 정확한 브랜드의 하드 드라이브와 호환되지 않아 스 래시 될 수 있습니까?
그것이 신발 상자 일 수 있습니까? 다른 곳에 놓아보십시오. 이제 선반 아래에 있으므로 습도도 문제가되지 않습니다. 일반적인 PC 케이스로 문제를 해결할 수 있습니까 (저는 스스로 촬영할 것입니까)? 나는 내일 사진을 얻을 것이다.
난 그냥 저주입니까?
도움이나 추측에 크게 감사드립니다.
편집 : 파워 스트립이 과전압으로부터 보호됩니다.
Edit2 : 저는이 4 개월 사이에 이사를 갔기 때문에 두 곳에서 "더러운"전기가 될 가능성이 매우 낮습니다.
Edit3 : 나는 BIOS의 전압을 점검했으며 (멀티 미터를 빌릴 수 없었습니다) 모두 정확합니다 .11V를 공급하기 때문에 12V에 가장 큰 불일치가 있습니다. 그것에 대해 걱정해야합니까?
Edit4 : 데스크탑 PC의 PSU를 서버에 넣었습니다. BIOS는 훨씬 더 정확한 전압 판독 값을보고했으며 약 3-4 시간이 걸리는 raid1 어레이를 성공적으로 재 구축했습니다. 내일 새로운 PSU를 테스트해볼 것입니다. 또한 상자에 대한 그림을 첨부하십시오. (3 번째 드라이브 무시)