drbd를 secondary로 전환 할 수 없습니다

나는 실행 해요 drbd83로 ocfs2에 centos 5사용할 계획 packemaker그들과 함께. 얼마 후, 나는 drbd분할 두뇌 문제에 직면하고 있습니다.

version: 8.3.13 (api:88/proto:86-96)
GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36

 1: cs:StandAlone ro:Primary/Unknown ds:UpToDate/DUnknown   r-----
    ns:0 nr:0 dw:112281991 dr:797551 al:99 bm:6401 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:60

drbd를 secondary로 전환 할 수 없습니다.

drbdadm secondary r0
1: State change failed: (-12) Device is held open by someone
Command 'drbdsetup 1 secondary' terminated with exit code 11

내 drbd리소스 구성 :

resource r0 {
        syncer { 
                rate 1000M; 
                verify-alg sha1;
        }

        disk {
                on-io-error detach;
        }

        handlers {
           pri-lost-after-sb "/usr/lib/drbd/notify-split-brain.sh root";
        }

        net {
                allow-two-primaries;
                after-sb-0pri discard-younger-primary;
                after-sb-1pri call-pri-lost-after-sb;
                after-sb-2pri call-pri-lost-after-sb;
        }
        startup { become-primary-on both; }

        on serving_4130{
                device          /dev/drbd1;
                disk            /dev/sdb1;
                address         192.168.4.130:7789;
                meta-disk       internal;
        }
        on MT305-3182 {
                device          /dev/drbd1;
                disk            /dev/xvdb1;
                address         192.168.3.182:7789;
                meta-disk       internal;
        }
}

ocfs2 상태 :

service ocfs2 status
Configured OCFS2 mountpoints:  /data

lsof drbd와 관련하여 하나의 프로세스가 있음을 보여줍니다.

lsof | grep drbd
COMMAND     PID      USER   FD      TYPE             DEVICE     SIZE       NODE NAME
drbd1_wor  7782      root  cwd       DIR              253,0     4096          2 /
drbd1_wor  7782      root  rtd       DIR              253,0     4096          2 /
drbd1_wor  7782      root  txt   unknown                                        /proc/7782/exe

그리고 그것은 죽은 심볼릭 링크입니다.

# ls -l /proc/7782/exe
ls: cannot read symbolic link /proc/7782/exe: No such file or directory
lrwxrwxrwx 1 root root 0 May  4 09:56 /proc/7782/exe

# ps -ef | awk '$2 == "7782" { print $0 }'
root      7782     1  0 Apr22 ?        00:00:20 [drbd1_worker]

이 프로세스는 대괄호로 묶습니다.

man ps:

args       COMMAND  command with all its arguments as a string. Modifications to the arguments may be shown. The
                    output in this column may contain spaces. A process marked <defunct> is partly dead, waiting to
                    be fully destroyed by its parent. Sometimes the process args will be unavailable; when this
                    happens, ps will instead print the executable name in brackets.

따라서 마지막 질문은 다음과 같습니다.이 경우 재부팅하지 않고 어떻게 수동으로 DRBD를 복구 할 수 있습니까?

@andreask에 답장 :

내 파티션 테이블 :

# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/mapper/VolGroup00-LogVol00
                       35G  6.9G   27G  21% /
/dev/xvda1             99M   20M   74M  22% /boot
tmpfs                 1.0G     0  1.0G   0% /dev/shm
/dev/drbd1            100G  902M  100G   1% /data

장치 이름 :

# dmsetup ls --tree -o inverted
 (202:2)
 ├─VolGroup00-LogVol01 (253:1)
 └─VolGroup00-LogVol00 (253:0)

블록 장치 ( 253:0)에 주의하십시오 lsof.

# lvdisplay 
  --- Logical volume ---
  LV Name                /dev/VolGroup00/LogVol00
  VG Name                VolGroup00
  LV UUID                vCd152-amVZ-GaPo-H9Zs-TIS0-KI6j-ej8kYi
  LV Write Access        read/write
  LV Status              available
  # open                 1
  LV Size                35.97 GB
  Current LE             1151
  Segments               1
  Allocation             inherit
  Read ahead sectors     auto
  - currently set to     256
  Block device           253:0

@Doug에 답장 :

# vgdisplay 
  --- Volume group ---
  VG Name               VolGroup00
  System ID             
  Format                lvm2
  Metadata Areas        1
  Metadata Sequence No  3
  VG Access             read/write
  VG Status             resizable
  MAX LV                0
  Cur LV                2
  Open LV               2
  Max PV                0
  Cur PV                1
  Act PV                1
  VG Size               39.88 GB
  PE Size               32.00 MB
  Total PE              1276
  Alloc PE / Size       1276 / 39.88 GB
  Free  PE / Size       0 / 0   
  VG UUID               OTwzII-AP5H-nIbH-k2UA-H9nw-juBv-wcvmBq

업데이트 금요일 5 월 17 일 16:08:16 ICT 2013

다음은 몇 가지 아이디어 에서 라스 Ellenberg는 :

파일 시스템이 여전히 마운트되어 있다면 ... 오 잘. 마운트를 해제하십시오. 게으른 것이 아니라 실제로.

OCFS2가 이미 마운트 해제 된 것 같습니다.

nfs가 관련된 경우 시도하십시오
killall -9 nfsd
killall -9 lockd
echo 0 > /proc/fs/nfsd/threads

아니요, NFS는 관여하지 않았습니다.

lvm / dmsetup / kpartx / multipath / udev가 관련된 경우 시도하십시오
dmsetup ls --tree -o inverted
drbd의 종속성이 있는지 확인하십시오.

위의 출력에서 볼 수 있듯이 LVM은 DRBD와 관련이 없습니다.

pvdisplay -m

  --- Physical volume ---
  PV Name               /dev/xvda2
  VG Name               VolGroup00
  PV Size               39.90 GB / not usable 20.79 MB
  Allocatable           yes (but full)
  PE Size (KByte)       32768
  Total PE              1276
  Free PE               0
  Allocated PE          1276
  PV UUID               1t4hkB-p43c-ABex-stfQ-XaRt-9H4i-51gSTD

  --- Physical Segments ---
  Physical extent 0 to 1148:
    Logical volume      /dev/VolGroup00/LogVol00
    Logical extents     0 to 1148
  Physical extent 1149 to 1275:
    Logical volume      /dev/VolGroup00/LogVol01
    Logical extents     0 to 126

fdisk -l

Disk /dev/xvda: 42.9 GB, 42949672960 bytes
255 heads, 63 sectors/track, 5221 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

    Device Boot      Start         End      Blocks   Id  System
/dev/xvda1   *           1          13      104391   83  Linux
/dev/xvda2              14        5221    41833260   8e  Linux LVM

Disk /dev/xvdb: 107.3 GB, 107374182400 bytes
255 heads, 63 sectors/track, 13054 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

    Device Boot      Start         End      Blocks   Id  System
/dev/xvdb1               1       13054   104856223+  83  Linux

loop / cryptoloop / etc가 관련된 경우 그 중 하나가 여전히 액세스하고 있는지 확인하십시오.

일부 가상화 기술이 사용중인 경우 수명 동안 해당 drbd에 액세스했을 수있는 모든 컨테이너 / VM을 종료 / 파기합니다.

아닙니다.

때로는 레이스를하는 것이 단지 udev 또는 동등한 것입니다.

나는 multipath규칙 을 비활성화 하고 심지어 중지 udevd하고 아무것도 변경하지 않았습니다.

때로는 유닉스 도메인 소켓 또는 이와 유사한 것이 여전히 열려 있습니다 (lsof / fuser에 표시되지 않아도 됨).

그렇다면이 유닉스 소켓을 어떻게 찾을 수 있습니까?

업데이트 수 5 월 22 일 22:10:41 ICT 2013

다음은 매직 SysRq 키 를 통해 덤프 할 때 DRBD 작업자 프로세스의 스택 추적입니다 .

kernel: drbd1_worker  S ffff81007ae21820     0  7782      1          7795  7038 (L-TLB)
kernel:  ffff810055d89e00 0000000000000046 000573a8befba2d6 ffffffff8008e82f 
kernel:  00078d18577c6114 0000000000000009 ffff81007ae21820 ffff81007fcae040 
kernel:  00078d18577ca893 00000000000002b1 ffff81007ae21a08 000000017a590180 
kernel: Call Trace: 
kernel:  [<ffffffff8008e82f>] enqueue_task+0x41/0x56 
kernel:  [<ffffffff80063002>] thread_return+0x62/0xfe 
kernel:  [<ffffffff80064905>] __down_interruptible+0xbf/0x112 
kernel:  [<ffffffff8008ee84>] default_wake_function+0x0/0xe 
kernel:  [<ffffffff80064713>] __down_failed_interruptible+0x35/0x3a 
kernel:  [<ffffffff885d461a>] :drbd:.text.lock.drbd_worker+0x2d/0x43 
kernel:  [<ffffffff885eca37>] :drbd:drbd_thread_setup+0x127/0x1e1 
kernel:  [<ffffffff800bab82>] audit_syscall_exit+0x329/0x344 
kernel:  [<ffffffff8005dfb1>] child_rip+0xa/0x11 
kernel:  [<ffffffff885ec910>] :drbd:drbd_thread_setup+0x0/0x1e1 
kernel:  [<ffffffff8005dfa7>] child_rip+0x0/0x11

이 OCFS2 하트 비트 영역으로 인해 DRBD가 보조로 전환되지 않는지 잘 모르겠습니다.

kernel: o2hb-C3E41CA2 S ffff810002536420     0  9251     31                3690 (L-TLB)
kernel:  ffff810004af7d20 0000000000000046 ffff810004af7d30 ffffffff80063002
kernel:  1400000004000000 000000000000000a ffff81007ec307a0 ffffffff80319b60
kernel:  000935c260ad6764 0000000000000fcd ffff81007ec30988 0000000000027e86
kernel: Call Trace:
kernel:  [<ffffffff80063002>] thread_return+0x62/0xfe
kernel:  [<ffffffff8006389f>] schedule_timeout+0x8a/0xad
kernel:  [<ffffffff8009a41d>] process_timeout+0x0/0x5
kernel:  [<ffffffff8009a97c>] msleep_interruptible+0x21/0x42
kernel:  [<ffffffff884b3b0b>] :ocfs2_nodemanager:o2hb_thread+0xd2c/0x10d6
kernel:  [<ffffffff80063002>] thread_return+0x62/0xfe
kernel:  [<ffffffff800a329f>] keventd_create_kthread+0x0/0xc4
kernel:  [<ffffffff884b2ddf>] :ocfs2_nodemanager:o2hb_thread+0x0/0x10d6
kernel:  [<ffffffff800a329f>] keventd_create_kthread+0x0/0xc4
kernel:  [<ffffffff80032632>] kthread+0xfe/0x132
kernel:  [<ffffffff8005dfb1>] child_rip+0xa/0x11
kernel:  [<ffffffff800a329f>] keventd_create_kthread+0x0/0xc4
kernel:  [<ffffffff80032534>] kthread+0x0/0x132
kernel:  [<ffffffff8005dfa7>] child_rip+0x0/0x11

— favadi
소스

이것은 프로그래밍 포럼입니다 . FAQ를 읽으십시오 . 따라서이 질문은 수퍼 유저 에게 더 적합합니다 . 마감 투표.

— t0mm13b

umount ocfs그것을 2 차로 강등시키기 전에 했습니까 ?

— Nils

@Nils : 예, 강등을 시도하기 전에 OCFS2가 이미 마운트 해제되었습니다.

— quanta

이 OCFS2 하트 비트 영역으로 인해 DRBD가 보조로 전환되지 않는지 잘 모르겠습니다.

아마도. 이 가이드를 따라 해당 지역을 죽이려고 했습니까 ?

# /etc/init.d/o2cb offline serving
Stopping O2CB cluster serving: Failed
Unable to stop cluster as heartbeat region still active

먼저 OCFS2 볼륨과 레이블 및 uuid를 나열해야합니다.

# mounted.ocfs2 -d
Device                FS     Stack  UUID                              Label
/dev/sdb1             ocfs2  o2cb   C3E41CA2BDE8477CA7FF2C796098633C  data_ocfs2
/dev/drbd1            ocfs2  o2cb   C3E41CA2BDE8477CA7FF2C796098633C  data_ocfs2

둘째,이 장치에 대한 참조가 있는지 확인하십시오.

# ocfs2_hb_ctl -I -d /dev/sdb1
C3E41CA2BDE8477CA7FF2C796098633C: 1 refs

그것을 죽이십시오 :

# ocfs2_hb_ctl -K -d /dev/sdb1 ocfs2

그런 다음 클러스터 스택을 중지하십시오.

# /etc/init.d/o2cb stop
Stopping O2CB cluster serving: OK
Unmounting ocfs2_dlmfs filesystem: OK
Unloading module "ocfs2_dlmfs": OK
Unmounting configfs filesystem: OK
Unloading module "configfs": OK

장치를 2 차 역할로 다시 가져옵니다.

# drbdadm secondary r0
# drbd-overview 
  1:r0  StandAlone Secondary/Unknown UpToDate/DUnknown r-----

이제 평소와 같이 분할 뇌를 회복 할 수 있습니다.

# drbdadm -- --discard-my-data connect r0
# drbd-overview 
  1:r0  WFConnection Secondary/Unknown UpToDate/DUnknown C r-----

다른 노드 (분할 뇌 생존자)에서 :

# drbdadm connect r0
# drbd-overview                                                                                                
  1:r0  SyncSource Primary/Secondary UpToDate/Inconsistent C r---- /data ocfs2 100G 1.9G 99G 2% 
        [>....................] sync'ed:  3.2% (753892/775004)K delay_probe: 28

스플릿 브레인 희생자 :

# /etc/init.d/o2cb start
Loading filesystem "configfs": OK
Mounting configfs filesystem at /sys/kernel/config: OK
Loading filesystem "ocfs2_dlmfs": OK
Mounting ocfs2_dlmfs filesystem at /dlm: OK
Starting O2CB cluster serving: OK

# /etc/init.d/ocfs2 start
Starting Oracle Cluster File System (OCFS2)                [  OK  ]

이 마운트 지점이 시작되어 실행 중인지 확인하십시오.

# df -h /data/
Filesystem            Size  Used Avail Use% Mounted on
/dev/drbd1            100G  1.9G   99G   2% /data

— 퀀타
소스

훌륭한 일! 당신은 DRBD와 좌절에서 저를 저장합니다. 거의 1 년 후에 문제가 해결되었습니다. 감사합니다!

— favadi

DRBD가 리소스를 강등시킬 수없는 일반적인 이유는 볼륨 그룹과 같은 활성 장치 매퍼 장치입니다. 예를 들어 다음과 같이 확인할 수 있습니다.

dmsetup ls --tree -o inverted

— 안드레아 스크
소스

dmsetup ls --tree -o inverted (8 : 2) ├─VolGroup00-LogVol01 (253 : 1) └─VolGroup00-LogVol00 (253 : 0) 어떻게 처리 할 수 있습니까?

— favadi

장치 매퍼에서 제거하거나 볼륨 그룹을 비활성화하십시오 (vgchange -an volume_group).

— Doug

DRBD는 논리 볼륨을 백업 장치로 사용하지 않습니다.

— quanta

매달려있는 장치 인 경우을 사용하여 장치를 제거 할 수 있습니다 dmsetup remove.

— Igor Galić