업데이트 : 최근에 정확한 시간에이 문제가 더 많이 발생했기 때문에 메시지 제목을 업데이트했습니다 17163091968s
. 이것은 증상을 조사하는 사람들이이 페이지를 찾는 데 도움이됩니다. 아래의 (자기 수용) 답변을 참조하십시오.
VMware vSphere 데이터 센터에 64 비트 Ubuntu 10.04 LTS VM이 많이 있습니다. VMware 도구가 설치되었습니다 (vSphere Client에 "확인"표시).
syslog에 다음과 같은 오류가 발생하여 일부 VM이 몇 번 멈추는 것을 보았습니다. vSphere에서 상황을 확인할 때 콘솔이 검은 색이고 "Reboot guest"명령이 아무 것도 수행하지 않았으므로 VM의 전원을 껐다 켜야했습니다.
Dec 1 11:44:15 s0 kernel: [18446744060.007150] BUG: soft lockup - CPU#0 stuck for 17163091988s! [jed:26674]
Dec 1 11:44:15 s0 kernel: [18446744060.026854] Modules linked in: btrfs zlib_deflate crc32c libcrc32c ufs qnx4 hfsplus hfs minix ntfs vfat msdos fat jfs xfs exportfs reiserfs xt_tcpudp iptable_filter ip_tables x_tables acpiphp fbcon tileblit font bitblit softcursor ppdev vga16fb psmouse parport_pc shpchp vgastate i2c_piix4 lp parport serio_raw intel_agp floppy mptspi mptscsih vmw_pvscsi e1000 mptbase
Dec 1 11:44:15 s0 kernel: [18446744060.026899] CPU 0:
Dec 1 11:44:15 s0 kernel: [18446744060.026900] Modules linked in: btrfs zlib_deflate crc32c libcrc32c ufs qnx4 hfsplus hfs minix ntfs vfat msdos fat jfs xfs exportfs reiserfs xt_tcpudp iptable_filter ip_tables x_tables acpiphp fbcon tileblit font bitblit softcursor ppdev vga16fb psmouse parport_pc shpchp vgastate i2c_piix4 lp parport serio_raw intel_agp floppy mptspi mptscsih vmw_pvscsi e1000 mptbase
Dec 1 11:44:15 s0 kernel: [18446744060.026920] Pid: 26674, comm: jed Not tainted 2.6.32-30-server #59-Ubuntu VMware Virtual Platform
Dec 1 11:44:15 s0 kernel: [18446744060.026922] RIP: 0033:[<00007f92e03d2ce6>] [<00007f92e03d2ce6>] 0x7f92e03d2ce6
Dec 1 11:44:15 s0 kernel: [18446744060.026930] RSP: 002b:00007fff6069b770 EFLAGS: 00000202
Dec 1 11:44:15 s0 kernel: [18446744060.026932] RAX: 00007f92e27e7e10 RBX: 00007f92e06d5e40 RCX: 0000000000020000
Dec 1 11:44:15 s0 kernel: [18446744060.026933] RDX: 00007f92e27e7e10 RSI: 0000000000020209 RDI: 0000000000000002
Dec 1 11:44:15 s0 kernel: [18446744060.026934] RBP: ffffffff81013cae R08: 0000000000000001 R09: 0000000000000000
Dec 1 11:44:15 s0 kernel: [18446744060.026935] R10: 00007f92e06d6398 R11: 0000000000000870 R12: 00000000000000c0
Dec 1 11:44:15 s0 kernel: [18446744060.026937] R13: 00007f92e299dca0 R14: 0000000000000020 R15: 00007f92e06d5e40
Dec 1 11:44:15 s0 kernel: [18446744060.026939] FS: 00007f92e105b700(0000) GS:ffff880009c00000(0000) knlGS:0000000000000000
Dec 1 11:44:15 s0 kernel: [18446744060.026940] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 1 11:44:15 s0 kernel: [18446744060.026941] CR2: 00007ff12ea15000 CR3: 0000000267067000 CR4: 00000000000006f0
Dec 1 11:44:15 s0 kernel: [18446744060.026968] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Dec 1 11:44:15 s0 kernel: [18446744060.026989] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Dec 1 11:44:15 s0 kernel: [18446744060.026991] Call Trace:
(추적은 없습니다-이것이 마지막 줄입니다.)
더 이상 다른 오류가없는 것 같지만 위에서 언급 한 프로세스 ( jed
)가 다른 덤프에서 다르다는 것을 확신 합니다.
이 문제의 원인은 무엇입니까?
이 문제를 방지하는 방법은 무엇입니까?
추가 정보 :
이 값
17163091988
은 약간 의심 스럽1111111111000000000000000000010100
습니다 (이진수로 표시됨) . 어쩌면 오류가 20 초 (10100
이진수로) 라고 말하고 있었습니까?최신 10.04 커널 (2.6.32-35)에서 문제가 지속되는지 확실하지 않습니다.
나는 또한
task ... blocked for more than 120 seconds
문제 를 보았습니다. 아마도 관련이있을 수 있습니까?vSphere 클라이언트에는 VM에 대한 경고 또는 마이그레이션 작업이 표시되지 않습니다.
clocksource
. 또한 CPU의 C 상태는 좋은 추측입니다.