우리는 응용 프로그램이 무엇의 하단에 도착하지 않을 수 있습니다,하지만 얻을처럼 불행하게도 보이는 몇몇 이 사건에서 값을, 나는 참조 대답을 창조하고 싶었다. 이것은 VMware 및 가상 계층 관리 중심입니다. 많은 관리자가 분리되어 있으며 게스트 또는 스토리지 액세스를 빠르게 얻을 수 없으며 이는 관리자를위한 것입니다. :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swf 는 @MosheKatz가 찾은 실제 응용 프로그램과 가장 일치하는 것 같습니다.
앞으로 이런 일이 발생하면 다음과 같이 조사해야합니다.
- 일부 VM 만 충돌 한 것은 아닙니다. 스토리지 문제로 인한 것으로 의심됩니다 (보통 가장 가능성이 큰 원인)
- 먼저 공통 요소를 분리하십시오. 충돌 한 모든 VM이 동일한 데이터 스토어를 공유하고 있습니까? 이 경우에는 문제가 있었지만 일부 컴퓨터는 문제가 없었으므로 하드웨어 문제를 배제했습니다.
- 모든 깨진 VM을 검사하여 공통 요소 (시간, 기능 등)가 있는지 확인하십시오. 이 경우에는 없었습니다.
다른 비정상적인 이벤트를 확인하십시오. 무언가가 여기에 깃발을 올렸습니다.
- NFS 스토리지가 어레이 수준에서 씬백되었습니다. 이것은 비록 예를 들어. 200GB는 ESXi 호스트에 제공되며 실제로는 100GB 만 사용할 수 있습니다. 그러나 배열에만이 지식이 있습니다. 우리가 발견 한 것은 디스크 공간이 부족하여 여러 VM이 일시 중지되었다는 것입니다. 우리는 이것이 근본 원인 일 수 있지만, 주먹 조치는 백엔드에 더 많은 스토리지를 할당하여이를 문제로 제거하는 것이 었습니다.
이 문제가 해결되고 (단순한 UI 변경) 일시 중지 된 VM이 성공적으로 다시 시작되면 원래 문제로 돌아갑니다. 손상된 VM에서 가상 머신을 가상 머신에 마운트했으며 디스크에 파티션 테이블이없는 것을 확인했습니다. 우리는 16 진수 뷰어를 사용할 수 없었으므로 이제 디스크가 비어 있다고 가정해야했습니다.
모니터링 시스템이 방금 응답하지 않은 새 VM에 경고했습니다. 디스크 공간 문제로 인해 몇 분의 VM에 응답하지 않는 시간이 있었기 때문에이 새로운 VM이 빠르게 발견되었다는 사실이 모니터링 모니터링의 좋은 신호였습니다.
우리는 콘솔을 열고 손님을 확인하고 위의 화면을 보았습니다.
- 이 단계에서 서버 결함 대화방으로 가서 프로그램을 식별 할 수 있는지 확인했습니다. 스토리지 동료가 모든 가상 계층 로그 및 이벤트를 확인하여 해당 지역에서 실행중인 스토리지 작업이 없는지 확인했습니다.
- 우리가해야 할 일은 VM을 일시 중단하고 일시 중단 파일을 기록하고 덤프를 분석하여 실행중인 프로그램을 식별 할 수 있는지 확인하는 것입니다. VM을 코어 PDF로 일시 중단 VMware KB
하루가 끝날 무렵, 위와 같이 게스트 내에서 가상 인프라 도구가보고되지 않았 음을 알았습니다. 우리는 ISO가 마운트되지 않았으며 VM에 대해 기록 된 이벤트가 없다는 것을 알 수있었습니다. 우리는 VM이 "하드 파워 사이클 (hard power cycled)"이 아니라 소프트 다시 시작 (기본 인프라에서는 보이지 않음) 된 것을 볼 수있었습니다. 우리는 이미 그것을 배제 한 것처럼 스토리지 측면이 아니라는 것을 알고있었습니다. 특정 VM에서 몇 시간 동안 발생했기 때문에 자동화되지 않은 것으로 의심됩니다. 우리는 왜 콘솔이 Disk Wipe를보고하는 것처럼 악의적이지 않다고 생각했습니다. :)
결론은 사용자가 디스크 지우기를 시작한 것입니다. 조사가 진행되는 한, 유용하다고 생각합니다.
학습 한 내용 :
- 복원 백업 및 테스트
- 모든 사용자, 특히 관리자 사용자는 씬 프로비저닝 환경에서 작업하고 있음을 알고 디스크 쓰기 포맷 (예 : 쓰기로드 1)을 피해야합니다.
- 적절한 모니터링 시스템을 갖추십시오.
- 새로운 가상 환경 : 진단 도구를 설치하여 VM을 준비하고 전원을 끈 상태에서도 도구를 준비하십시오. 성능, 네트워크 스토리지. 이것이 가능하다면 손상된 디스크에 16 진 덤프를 마운트하고 수행하여 실제로 비어 있는지 또는 mbr이 없는지 확인할 수 있습니다. 우리는 그것이 1로 쓰여 졌는지 알 수있었습니다.