전원 장애 후 CentOS 6 서버 VM 호스트를 확인하는 방법은 무엇입니까?

9

오늘 오후에 사무실의 누군가가 외부에서 튀어 나와서 서버에서 플러그를 뽑기로했습니다. 그들은 전원을 끄지 않고 플러그가 작동하는 동안 플러그를 뽑았습니다.

서버에는 소프트웨어 RAID 10 구성에 4 개의 SATA 드라이브가 있으며 RAID 위에서 LVM이 실행됩니다. 서버가 CentOS 6.2 최소를 실행 중이며 KVM을 사용하는 가상 머신 호스트입니다. 플러그를 뽑을 때 컴퓨터에서 많은 게스트 컴퓨터가 실행되고있었습니다. 각 게스트에는 하드 드라이브로 직접 사용하는 하나 이상의 LVM 파티션이 있습니다. 게스트 파티션은 EXT3, EXT4 및 NTFS입니다. 호스트 OS는 EXT4 파티션에 있습니다.

나중에 전원이 다시 들어 오면 그 사람은 다시 전원을 연결하고 시작했습니다. 모니터를 먼저 연결하지 않고 플러그를 꽂았으므로 화면에 무엇이 표시되는지 확인할 수 없습니다. 지금 모니터 연결을 시도했지만 모니터가 부팅시 연결되어 있지 않으면 작동하지 않습니다. 나는 아무 것도 망치고 싶지 않기 때문에 조언을 얻을 수있을 때까지 그대로 그대로 두었습니다.

SSH를 통해 호스트에 접속할 수 있습니다. 유용 할 수있는 로그에 무언가가있는 경우를 대비하여 아직 재부팅하지 않았습니다.

내가해야 할 일은 가능한 경우 모든 디스크와 파티션에서 데이터 무결성을 검사하는 것입니다. RAID 10은 일종의 메모리 기반 캐시를 사용하고 드라이브에 일관성이 없거나 아직 작성되지 않은 드라이브에 큐에 쓸 것이 있으면 파일이 손상 될까 걱정하고 있습니다.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

또한 내 배열을 "근처 복사"라고 부르는 것을 귀찮게합니다. 그게 정상인가요?

드라이브와 데이터에 모든 것이 정상인지 확인하기 위해 어떤 종류의 디스크 검사를 실행해야합니까? 확인해야 할 다른 것이 있습니까?

최신 정보

mdadm 출력 --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— 새긴 금
소스

3

RAID는 정상입니다. 모든 UUUU는 어레이의 모든 디스크가 가동되었음을 의미합니다. 나는 지금도 그것에 대해 걱정하지 않을 것입니다.

VM의 경우 fscks를 실행하려면 VM을 중지하고 실행하십시오.

fsck.ext3 (ext4, etc) /path/to/lvm (일반적으로 / dev / vg-name / lv-name과 유사)

KVM을 사용 virsh하는 경우 VM에 필요한 모든 작업을 수행 할 수 있어야합니다 . 다음은 virsh 매뉴얼 페이지에 대한 링크입니다. http://linux.die.net/man/1/virsh

RAID 배열에서 디스크 검사를 실행하려면 단일 사용자 모드로 재부팅하거나 라이브 CD에서 부팅하여 개별 / dev / mdX 장치를 fsck해야합니다. 기본 파일 시스템은 EXT4이므로 귀찮게하지는 않지만 정전이있는 EXT3보다 훨씬 낫습니다.

— 젬미
소스

+1, 내일 시도합니다.

— Nick

1

mdadm --detail / dev / md0을 시도하십시오 (md1 및 md2와 동일).

그런 다음 여기에 제공된 조언을 시도하십시오. http://linas.org/linux/raid.html

— 송시
소스

mdadm --detail /dev/md0위 의 결과를 게시했습니다 . 링크 한 가이드를 읽었지만 EXT4 파일 시스템에 대해 언급하지 않았거나 무결성을 확인하기 위해 무엇을 할 수 있습니까?

— Nick

파일 시스템 유형은 RAID 무결성 측면에서 중요하지 않습니다. 유지 관리 기간이있는 경우 영향을받는 파일 시스템과 해당 파일 시스템을 마운트 해제 할 수 fsck있습니다. RAID 장치 자체를 확인하려면 다음과 같은 작업을 수행하십시오 echo "check" > /sys/block/md0/md/sync_action. 또는 일종의 mdadm 복구를 수행하기 위해 "복구"를 에코하십시오.

— cjc

나는 내일 이것을 시도하고 다시보고합니다.

— Nick