이 직무의 90 %가 어떤 종류의 문제를 어디에서 찾아야하는지 알려주는 경험이기 때문에 구체적인 답변을하기가 어렵고, 다른 90 %는 어디에서 시작 할지를 암시하기 위해 Google을 어디에서 찾아야하는지 알고 있습니다.
나는 일반적으로 고객이 문제를 설명하도록하는 것 (주로 손가락 문제와 고객이 자신의 문제를 설명하고있을 수있는 문제를 배제하기 위해)을 한 다음 다른 컴퓨터에서 문제를 복제하려고하는 것과 같은 종이 봉지를 사용하려고합니다. 그렇게하면 종종 어디를 볼지에 대한 통찰력을 얻을 수 있습니다.
특히 Windows 시스템, 심지어 오늘날에도 재부팅의 수정 문제를 잊지 마십시오. 예전에는 사람들에게 "다시 부팅 했습니까? 문제가 지속되면 알려주세요"라고 물어 보았습니다. 이렇게하면 제가 요청한 문제의 상당 부분이 해결되었습니다.
DNS 확인 문제 및 기본 연결 (라우터의 ACL, 네트워크의 에어 갭, 원격 사이트에 대한 핑 / 추적 경로 / mtrs 등)에 빈약 한 결실이 자주 있습니다.
직접 제어 할 수있는 서비스, Nagios 실행 또는 서비스가 실제로 실행되고 있는지 확인하는 경우 고객이 서비스에 대해 알리기 전에 문제를 해결하도록 자주 트리거 할 수 있습니다. 아마도 munin 또는 무언가를 통해 직접 또는 SNMP를 통해 Cacti와 같은 통계 수집을 실행하고 싶을 것입니다.
나는 보통 Cacti가 적어도 모든 핵심 스위치와 방화벽에 대해 실행되도록 노력합니다. 가능한 한, 나는 가능한 모든 것에 대하여 선인장을 운영한다 이 경우 일반적으로 포트 오류 수 또는 과도한 트래픽과 같은 것을 찾고 있습니다. 일부 장치의 방화벽 그래프는 CPU 사용량과 동시 세션을 보여줍니다. 방화벽 장치에 문제가 발생하기 시작하는 임계 값을 배우게됩니다.
방화벽이 syslog 장치에 기록 할 수 있습니다. 그렇다면 가능한 모든 것을 기록하고 힌트를 찾아보십시오. syslog-ng 또는 rsyslog 또는 splunk와 같은 것을 실행하면 하나의 모 놀리 식 파일을 처리하는 대신 로그를 약간 나눌 수 있습니다.
또한 적어도 방화벽 내부와 가능한 경우 인터넷 공급자에 대한 업 링크에 대해 nfsen을 실행하려고합니다. 이를 통해 시간을 거슬러 돌아가서 누가 무엇을하고 있었는지 확인할 수 있습니다. 이것은 때때로 흥미로운 행동을 잡을 수 있습니다.