우리는 우분투 16.04를 실행하는 서버를 가지고 있습니다. 우리는 4 개의 제온과 2 개의 RAID 컨트롤러 (각각 1TB SSD로 채워짐)를 통해 많은 실험을했습니다. 문제없이 64 개 코어를 모두 사용하여 몇 달 동안 작업을 실행했습니다. 우리는 새로운 작업을 시도 할 때까지 아무런 문제없이 1 년 넘게 사용 해왔다.
짧은 시간 내에 대량의 디스크 IO (수백에서 TB에 이르는)를 수행 할 때 서버는 자동 재부팅을 수행합니다. 모든 로그에서 재부팅을 찾을 수 없습니다. "마지막 재부팅"을 실행해도 재부팅을 인식하지 못하지만 가동 시간을 확인하면 최근에 다시 시작 되었음이 표시됩니다.
Heavy Disk IO는 지속적으로 자동 재부팅을 유발합니다. 습격 파티션을 다시 만들려고했습니다. 우리는 다른 것에 비교되면서 조금 별 났던 1 개의 구동 장치를 바꾸었다 (그러나 아직도 일하는 것처럼 보였다). 14.04에서 16.04로 업그레이드되었습니다. RAID 컨트롤러와 SSD의 펌웨어도 업데이트되었지만 이것이 도움이되지는 못합니다.
재부팅은 여전히 발생하며, 이유를 파악하는 방법은 확실하지 않습니다. 아무 것도 문제를 기록하는 것 같지 않고, 여기 누군가가 syslog 및 dmesg (후자는 비어 있음) 이외의 다른 곳을 보게 될 것입니다.
1
온도를 모니터합니까?
—
Kamil Maciorowski
기록이 없으면 어떻게 재부팅이 발생했는지 확인할 수 있습니까? BIOS 화면이 보이십니까? 어쩌면 활성 프로그램이 전체 시스템을 다시 시작하지 않고 종료되었을 수도 있습니다. 모든 디스크, 특히 스왑 디스크의 SMART 데이터를 확인하는 것이 좋습니다.
—
AFH
@ KamilMaciorowski 아니, 어떻게해야할지 모르겠다. 그러나 서버는 냉각 된 센터에서 실행 중입니다.
—
Raff.Edward
@AFH SMART는 모든 디스크에 모든 것이 정상이라고 말합니다. 다시 시작한 b / c 가동 시간은 재부팅을 표시하고 BIOS 화면을 보면 재시작 중이며 로그에서 재시작 프로세스가 표시됩니다. 재시작하기 전에 서버는 재부팅 할 것임을 나타내지 않습니다.
—
Raff.Edward
@ KamilMaciorowski 내 동료가 방금 확인했습니다. CPU 및 메모리가 정상 범위 내에 있습니다. 전력 소비량은 이전에 수행 한 작업 부하보다 훨씬 적습니다. 케이스 및 마더 보드 온도는 권장 온도 범위의 하반부에 있습니다. RAID 컨트롤러 또는 SSD 온도에 대한 보고서는 나타나지 않습니다.
—
Raff.Edward