우리는 수십 개의 Proxmox 서버 (Proxmox가 데비안에서 실행 됨)를 가지고 있으며, 한 달에 한 번, 그중 하나가 커널 패닉 상태가되어 잠 깁니다. 이러한 잠금에 대한 최악의 부분은 클러스터 마스터와 별도의 스위치에있는 서버 인 경우 실제로 충돌 한 서버를 찾아 재부팅 할 때까지 해당 스위치의 다른 모든 Proxmox 서버가 응답을 중지한다는 것입니다.
Proxmox 포럼에서이 문제를보고했을 때 Proxmox 3.1로 업그레이드하라는 권고를 받았으며 지난 몇 달 동안이 작업을 수행하고있었습니다. 불행히도, 우리가 Proxmox 3.1로 마이그레이션 한 서버 중 하나가 금요일에 커널 패닉으로 잠겼으며, 동일한 스위치에 있던 모든 Proxmox 서버는 충돌 한 서버를 찾아 재부팅 할 때까지 네트워크를 통해 연결할 수 없었습니다.
글쎄, 스위치의 거의 모든 Proxmox 서버 ... 나는 여전히 Proxmox 버전 1.9에있는 동일한 스위치의 Proxmox 서버가 영향을받지 않았다는 것이 흥미로웠다.
충돌 서버의 콘솔 스크린 샷은 다음과 같습니다.
서버가 잠기면 Proxmox 3.1도 실행중인 동일한 스위치의 나머지 서버에 연결할 수 없어 다음과 같은 결과가 발생했습니다.
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname-잠긴 서버의 출력 :
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
pveversion -v 출력 (약어) :
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
두 가지 질문 :
커널 패닉을 유발하는 원인은 무엇입니까 (위 이미지 참조)?
잠긴 서버가 재부팅 될 때까지 동일한 스위치 및 Proxmox 버전의 다른 서버가 네트워크에서 차단되는 이유는 무엇입니까? (참고 : 동일한 스위치에는 이전 1.9 버전의 Proxmox를 실행하는 다른 서버가 영향을받지 않았으며 동일한 3.1 클러스터의 다른 Proxmox 서버는 동일한 스위치에 있지 않은 영향을받지 않았습니다.)
조언에 미리 감사드립니다.