우리는 리눅스 서버를 3 년 동안 많이 사용했습니다. 우리는 많은 가상화 서버를 운영하고 있으며, 일부는 제대로 작동하지 않았으며, 상당한 시간 동안 서버의 io 용량이 초과되어 잘못된 iowait가 발생했습니다. 3com RAID 컨트롤러에 연결된 4 개의 500GB Barracuda SATA 드라이브가 있습니다. 1 드라이브에는 OS가 있고 다른 3 개는 RAID 5 설정입니다.
이제 드라이브의 상태와 드라이브의 고장 여부에 대한 토론이 있습니다.
다음은 4 개의 디스크 중 1 개에 대한 출력의 일부입니다. 그들은 모두 비교적 비슷한 통계를 가지고 있습니다 :
스마트 속성 데이터 구조 개정 번호 : 10 임계 값이있는 공급 업체별 SMART 속성 : ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE WHEN_FAILED RAW_VALUE 업데이트 1 Raw_Read_Error_Rate 0x000f 118 099 006 사전 실패 항상-169074425 3 Spin_Up_Time 0x0003 095 092 000 사전 실패 항상-0 4 Start_Stop_Count 0x0032100100020 Old_age 항상-26 5 Reallocated_Sector_Ct 0x003310010036 사전 실패 항상-0 7 Seek_Error_Rate 0x000f 077 060 030 사전 실패 항상-200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age 항상-27856 10 Spin_Retry_Count 0x0013 10010097 사전 실패 항상-1 12 Power_Cycle_Count 0x0032100100020 Old_age 항상-26 184 Unknown_Attribute 0x003210010099 Old_age 항상-0 187 Reported_Incorrect 0x0032 100 100 000 Old_age 항상-0 188 Unknown_Attribute 0x0032 100 100 000 Old_age 항상-1 189 High_Fly_Writes 0x003a 100 100 000 Old_age 항상-0 190 Airflow_Temperature_Cel 0x0022 060160 45 Old_age Always-29 (수명 최소 / 최대 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Always-29 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Always-169074425 197 Current_Pending_Sector 0x0012 100100 000 Old_age 항상-0 198 오프라인 _ 수정 불가 0x0010 100 100 000 Old_age 오프라인-0 199 UDMA_CRC_Error_Count 0x003e 200 200,000 Old_age 항상-0 스마트 오류 로그 버전 : 1 오류가 기록되지 않음
이것에 대한 나의 해석은 불량 섹터 또는 드라이브 중 하나가 적극적으로 고장났다는 다른 징후가 없다는 것입니다.
그러나 높은 Raw_Read_Error_Rate 및 Seek_Error_Rate는 드라이브가 죽고 있음을 나타냅니다.