무거운 디스크 입출력은 사일런트 재부팅을 유발합니까?


0

우리는 우분투 16.04를 실행하는 서버를 가지고 있습니다. 우리는 4 개의 제온과 2 개의 RAID 컨트롤러 (각각 1TB SSD로 채워짐)를 통해 많은 실험을했습니다. 문제없이 64 개 코어를 모두 사용하여 몇 달 동안 작업을 실행했습니다. 우리는 새로운 작업을 시도 할 때까지 아무런 문제없이 1 년 넘게 사용 해왔다.

짧은 시간 내에 대량의 디스크 IO (수백에서 TB에 이르는)를 수행 할 때 서버는 자동 재부팅을 수행합니다. 모든 로그에서 재부팅을 찾을 수 없습니다. "마지막 재부팅"을 실행해도 재부팅을 인식하지 못하지만 가동 시간을 확인하면 최근에 다시 시작 되었음이 표시됩니다.

Heavy Disk IO는 지속적으로 자동 재부팅을 유발합니다. 습격 파티션을 다시 만들려고했습니다. 우리는 다른 것에 비교되면서 조금 별 났던 1 개의 구동 장치를 바꾸었다 (그러나 아직도 일하는 것처럼 보였다). 14.04에서 16.04로 업그레이드되었습니다. RAID 컨트롤러와 SSD의 펌웨어도 업데이트되었지만 이것이 도움이되지는 못합니다.

재부팅은 여전히 ​​발생하며, 이유를 파악하는 방법은 확실하지 않습니다. 아무 것도 문제를 기록하는 것 같지 않고, 여기 누군가가 syslog 및 dmesg (후자는 비어 있음) 이외의 다른 곳을 보게 될 것입니다.


1
온도를 모니터합니까?
Kamil Maciorowski

기록이 없으면 어떻게 재부팅이 발생했는지 확인할 수 있습니까? BIOS 화면이 보이십니까? 어쩌면 활성 프로그램이 전체 시스템을 다시 시작하지 않고 종료되었을 수도 있습니다. 모든 디스크, 특히 스왑 디스크의 SMART 데이터를 확인하는 것이 좋습니다.
AFH

@ KamilMaciorowski 아니, 어떻게해야할지 모르겠다. 그러나 서버는 냉각 된 센터에서 실행 중입니다.
Raff.Edward

@AFH SMART는 모든 디스크에 모든 것이 정상이라고 말합니다. 다시 시작한 b / c 가동 시간은 재부팅을 표시하고 BIOS 화면을 보면 재시작 중이며 로그에서 재시작 프로세스가 표시됩니다. 재시작하기 전에 서버는 재부팅 할 것임을 나타내지 않습니다.
Raff.Edward

@ KamilMaciorowski 내 동료가 방금 확인했습니다. CPU 및 메모리가 정상 범위 내에 있습니다. 전력 소비량은 이전에 수행 한 작업 부하보다 훨씬 적습니다. 케이스 및 마더 보드 온도는 권장 온도 범위의 하반부에 있습니다. RAID 컨트롤러 또는 SSD 온도에 대한 보고서는 나타나지 않습니다.
Raff.Edward
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.