일상적인 유지 보수를 어떻게 추적하고 문서화합니까?


10

서버 결함에 대해 어떤 소프트웨어 또는 시스템을 사용하여 일상적인 유지 관리를 상기 시키도록합니까? 점검해야 할 다양한 항목을 어떻게 점검하고 기록합니까? 내부 프로세스 문서가 있습니까? 시스템 로그를 확인하라는 알림과 함께 매주 cron 메일을 보내십니까?

또한 팀에서 시스템 유지 관리 작업을 수행하고 있다면 유지 관리 담당자를 어떻게 조정합니까?

버그 / 문제 추적 시스템을 사용하여 작업을 입력하는 경우 반복 작업을 수행하는 크론 작업이 있습니까?

답변:


5

현재 Request Tracker ( http://www.bestpractical.com/rt )를 사용하고 있습니다.
모든 유지 보수 이벤트는 "시스템"큐에 연관된 티켓을받습니다. 필요한 승인과 함께 발생한 문제, 누가 어떤 작업을 수행했는지 등이 모두 티켓에 입력됩니다.

현재 반복 작업 (분기 별 패치 등)은 수동으로 생성되지만 쉽게 자동화 할 수 있습니다 (크론 작업 + 이메일).

관리자 그룹에 인원이 2 명뿐이므로 누가 어떤 작업을하고 있는지 조정하는 것이 상대적으로 쉽지만 계획을 확장하면 유지 관리 이벤트에 대한 마스터 티켓을 만들고 책임 당사자에게 할당 된 자식 티켓을 사용하여 작업을 위임합니다. .


매일 물건 (로그 확인 등)은 또 다른 문제입니다. 모든 것을 자동화 된 프로세스로 정리했습니다.

  • InterMapper 는 서버의 전반적인 상태 (높은로드, 낮은 디스크 공간 등을 찾는 SNMP 쿼리), 웹 인터페이스의 기능 및 문제를 나타낼 수있는 다른 것들을 감시합니다.
  • Syslog-NG 는 호스트에서 로그를 수집하여 명백한 불량을 확인하는 여러 스크립트를 통해 로그를 제공합니다. 스크립트를 온전하게 검사하기 위해 로그를 가끔씩 살펴 보지만 정기적으로 예약되지 않았습니다.


2

제대로 구현 된 자동화는 작업 및 검사 목록이 필요하지 않습니다. 훨씬 더 효과적이고 효율적으로 작업을 수행 할 수있는 컴퓨터가있을 때 수동으로 확인하려는 이유는 무엇입니까?

주기적 점검이 필요한 것은 모니터링 시스템에 의해 점검됩니다. 일상적인 작업은 수동으로 수행해야하는 몇 가지 작업에 대해 실용적이고 미리 알림을 보낼 때마다 자동화됩니다. 문서는 또 다른 문제이지만 컴퓨터에서 대부분 자체 문서를 만들 수 있습니다.

더 나은 수동 방법을 찾지 말고 모든 작업을 수행하는 더 나은 자동화 방법을 찾으십시오. 컴퓨터는 우리를 위해 일하는 것이 아니라 우리를 위해 일하기 위해 있습니다.


좋은 경험 법칙 : 시스템 관리자는 항상 유능하고 게으른 사람이어야합니다. 업무를 수행하지 않으려는 욕구는 훌륭한 시스템 관리자가 우수한 자동화를 구현하도록 이끌 것입니다.
voretaq7

구체적인 예를 들어 보겠습니다. Apache의 보안 패치를 모니터링 한 다음 새 빌드를 생성하고 패치가 나올 때 테스트해야합니다. 일상적인 부분은 새로운 Apache 릴리스를 모니터링하는 것입니다. 올바른 모듈이 컴파일되지 않았기 때문에 (주) 저장소에서 직접 업데이트 할 수 없습니다. 또한 릴리스를 확인했는지 감사해야합니다. 더 이해가 되나요?
Zak

또한 빌드가 QA를 통과 할 때까지 모든 소프트웨어의 최신 배치를 롤링하고 싶지 않습니다. 대부분의 품질 관리는 자동화되어 있지만 전부는 아닙니다.
Zak

그리고 모든 것을 스크립팅 할 수없는 이유가 있습니까? 자동화 된 업데이트 확인, 일부 업데이트가있을 경우 경고를 보낸 후 스크립트 컴파일 및 설치가 가능하며 테스트 할 수 있습니다. 기계가 많은 작업을 수행하고주의가 필요할 때 알려줍니다.
John Gardeniers

1

프로젝트 작업의 경우 프로젝트 관리 앱 (전자 메일 및 일정이 세부 작업을 문서화하고 특정 사람들을 위해 예약 할 수있는 기능과 통합 된)에서 파생됩니다.

유지 관리, 업그레이드, 수정 등을 위해 변경 관리 프로세스와 어느 정도 통합되어 요청 및 일정을 처리하는 티켓 시스템이 있습니다.

내부적으로 완전히 주도 된 작업 및 긴주기 (4, 1 년 등)에 대한 작업 :

해야 할 일에 대한 알림은 캘린더입니다. 일반적인 일정에 대한 비공식 / 반 공식 문서 ( "wiki")가 있습니다.

작업을 수행하는 방법에 대한 "방법"과 절차 적 문서가 많이 있으며, 팀이 대규모로 액세스 할 수 있지만 사람들은 자신의 관리자 "블랙 북"과 메모 및 레시피가있는 로그를 가지고 있습니다.


1

모니터링 시스템은 다음과 같은 작업에 도움이 될 수 있습니다.

  • 우리는 매월 유지 관리의 각 라운드를 확인란이있는 doc 파일로 문서화합니다. 매달 우리는 NAS의 폴더에 보고서를 저장합니다. 폴더의 최소 파일 수명을 모니터링합니다. 최소 파일 수명이 40 일을 초과하면 알람이 발생합니다.

  • 정기 유지 관리의 한 부분은 한 달에 한 번 선택한 서버와 어플라이언스를 재부팅하는 것입니다. 모니터링 소프트웨어에서 "시스템 가동 시간"센서 (SNMP / WMI)를 사용하며 가동 시간이 40 일을 초과하면 알람이 발생합니다.

  • 백업을 위해 NAS에있는 각 서버의 백업 폴더에서 최소 파일 수명을 모니터링합니다. 최소 파일 수명이 10 일을 초과하면 알람이 발생합니다.


1

Checkpanel ( https://checkpanel.com )을 사용하여 반복적 인 유지 관리 작업을 관리합니다. 재사용 가능한 점검 목록과 각 점검 결과를 기록 할 수있는 쉬운 인터페이스를 제공합니다.

항목을 확인한 후에는 "완료"된 것이 아니라 추가 확인을 위해 계속 사용할 수 있습니다. 선택 사항 인 세부 정보 (예 : 실패한 검사 오류 메시지)를 포함하여 항목의 모든 과거 검사 내역을 쉽게 검토 할 수 있도록 각 검사가 기록됩니다.

각 항목에 대해 되풀이를 설정하여 적어도 일주일에 한 번 / 2 일마다 등을 확인하도록 할 수 있습니다. 모든 마감 항목에 대한 통합 된보기가 있습니다. 원하는 경우 모든 마감 항목이 포함 된 이메일을 매일받을 수도 있습니다.

자체 점검 목록의 기초로 사용할 수 있는 서버 유지 보수 점검 목록 템플리트 가 있습니다. 다른 템플릿에는 웹 응용 프로그램, WordPress 등을위한 점검 목록이 포함됩니다.

공개 : 저는 Checkpanel의 창립자입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.