하드 재설정 링크 예외 Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen


8

다음 상황 :

커널이있는 생산적인 Linux 데비안 7 서버 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

제조업체 : Supermicro 제품 이름 : X10SLL-F 버전 :1.02

SATA 컨트롤러 : Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

SSD 2 개, HDD 2 개

각 드라이브는 Sata Rev3 (6.0Gb / s)를 수행 할 수 있습니다

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

커널 메시지는 적어도 4 개의 드라이브에 문제가 있음을 시사합니다.

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

내가 이미 알아 낸 것 (또는 알아 낸 것으로 믿는다)

명령 SECURITY FREEZE LOCKDEVICE CONFIGURATION OVERLAY문제에 중요하지 않습니다.

약 20 개의 버그 보고서와 많은 문서를 읽는 동안 일부 링크는 NCQ를 비활성화 할 것을 제안했습니다.

먼저 하나의 장치에 대해 오류가 반복되는지 확인하기 위해 1 일을 기다린 후에 다시 발생하고 4 개의 장치 모두에서 비활성화했습니다.

echo "1" >/sys/block/sdc/device/queue_depth

상황에 명백한 변화가 없습니다.

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

다른 사람들은 SATA 케이블 또는 보드 + 드라이브 간의 비 호환성을 제안합니다.

그러나 하나의 드라이브에 문제가 있고 4 개 모두에 채워지거나 4 개 장치 모두에 직접 문제가있는 것처럼 문제를 더 정확하게 지적 할 수 없습니다.

이것은 유지 관리 (일명 bios / kernel param changes)를 위해이 서버를 중단시키는 프로덕션 서버이므로 가능하지만 가능한 경우 방지하고 싶습니다.

호스팅 업체에 따르면 전원 관리와 관련이있을 수 있습니다.

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

변경하기 전에 이것은로 설정되었습니다 max_performance.

이것도 도움이되지 않았습니다.

HDD / SDD의 스마트 가치는 괜찮습니다.

UDMA 가치는 이제 33에 불과합니다.

서버 부팅시 이것은 sata 링크 속도 값이었습니다.

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

상황은 HDD의 높은 부하에서만 발생할 수 있지만 서버 성능에 분명히 영향을 미치기 때문에 아직 테스트하지 않았습니다.

SSD에는로드가 없으며 마운트되어 있지만 어떤 프로세스에서도 사용되지 않습니다.

내가 말할 수있는 한 RAM은 ECC입니다.

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

다음에해야 할 일에 대한 아이디어가 없기 때문에 추가 정보를 제공 할 수 있는지 알려주십시오.


공급 업체에게 수퍼 마이크로를 직접 요청하면 호스팅 업체가 그렇지 않은 경우 도움이 될 수 있습니다.
Dennis Nolte

1
시스템이 1.5Gbps에서 재협상 중입니다. 1.5Gbps를 강제로 시도하여 시스템이 안정적인지 확인하십시오. 데이터 포인트입니다. 방법에 대한 간단한 설명은 askubuntu.com/a/146290/11751 을 참조 하십시오 .
CVn

답변:


4

서버가 경험하는 것은 기본적으로 드라이브와의 통신에 문제가 발생한 후 링크 속도가 느린 SATA 재협상입니다.

이러한 요소는 여기서 작동 할 수 있습니다 (확률 순으로 정렬).

  1. 대기 시간이 긴 IOPS 작업 (예 : SSD 컨트롤러의 가비지 수집으로 인해 발생)으로 인해 SATA 명령 시간이 초과되었습니다. 드라이브가 SATA Trim 명령을 지원합니까? 그렇다면을 실행 해보십시오 fstrim /. 아무것도 바뀌나요?
  2. 잘못된 마더 보드 / 메모리 : 메모리 ECC가 보호됩니까? 그렇지 않은 경우 가능하면 연장 된 (2 시간 이상) memtest86 + 테스트 세션을 실행하십시오.
  3. 하드웨어 / 소프트웨어 드라이버 비 호환
  4. 불량 SATA 컨트롤러 : 아주 드물지만 완전히 배제 할 수는 없습니다
  5. 불량 SATA 케이블 / 드라이브 : 4 개의 드라이브 모두 문제가 있으므로, 이는 거의 불가능합니다

ssd가 현재 사용 중이 아니며 ECC가 사용 된 것 같습니다. dmidecode에서 -t17 : 총 폭 : 72 비트 데이터 폭 : 64 비트
Dennis Nolte

3

Supermicro Support에 따르면 결함은 보드에 있습니다.

인용문:

This board may need ECO 16238 update.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.