가상화 된 SR-IOV Infiniband 인터페이스 UP을 얻는 방법?


9

나는 이것에 며칠을 보냈고 SR-IOV가 최신 펌웨어를 사용하여 Mellanox Infiniband 카드로 작업하도록했습니다.

가상 기능은 Dom0에 다음과 같이 나타납니다.

06 : 00.1 네트워크 컨트롤러 : Mellanox Technologies MT27500 제품군 [ConnectX-3 가상 기능] 06 : 00.2 네트워크 컨트롤러 : Mellanox Technologies MT27500 제품군 [ConnectX-3 가상 기능] 06 : 00.3 네트워크 컨트롤러 : Mellanox Technologies MT27500 제품군 [ConnectX-3 가상 기능 ] 06 : 00.4 네트워크 컨트롤러 : Mellanox Technologies MT27500 제품군 [ConnectX-3 가상 기능]

그런 다음 Dom0에서 06 : 00.1을 분리하여 xen-pciback에 할당했습니다.

이것을 Xen 테스트 도메인으로 전달했습니다.

테스트 DomU 내부의 lspci는 다음을 보여줍니다.

00 : 01.1 네트워크 컨트롤러 : Mellanox Technologies MT27500 제품군 [ConnectX-3 가상 기능]

DomU에 다음 모듈이로드되어 있습니다

mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

mlx4 드라이버의 dmesg 출력은 다음을 보여줍니다.

[   11.956787] mlx4_core: Mellanox ConnectX core driver v1.1 (Dec, 2011)
[   11.956789] mlx4_core: Initializing 0000:00:01.1
[   11.956859] mlx4_core 0000:00:01.1: enabling device (0000 -> 0002)
[   11.957242] mlx4_core 0000:00:01.1: Xen PCI mapped GSI0 to IRQ30
[   11.957581] mlx4_core 0000:00:01.1: Detected virtual function - running in slave mode
[   11.957606] mlx4_core 0000:00:01.1: Sending reset
[   11.957699] mlx4_core 0000:00:01.1: Sending vhcr0
[   11.976090] mlx4_core 0000:00:01.1: HCA minimum page size:512
[   11.976672] mlx4_core 0000:00:01.1: Timestamping is not supported in slave mode.
[   12.068079] <mlx4_ib> mlx4_ib_add: mlx4_ib: Mellanox ConnectX InfiniBand driver v1.0 (April 4, 2008)
[   12.184072] mlx4_core 0000:00:01.1: mlx4_ib: multi-function enabled
[   12.184075] mlx4_core 0000:00:01.1: mlx4_ib: operating in qp1 tunnel mode

심지어 ib0 장치가 나타납니다.

ib0       Link encap:UNSPEC  HWaddr 80-00-05-49-FE-80-00-00-00-00-00-00-00-00-00-00  
          inet addr:10.10.10.10  Bcast:10.10.10.255  Mask:255.255.255.0
          UP BROADCAST MULTICAST  MTU:2044  Metric:1
          RX packets:117303 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:256 
          RX bytes:6576132 (6.5 MB)  TX bytes:0 (0.0 B)

로컬로 10.10.10.10을 ping 할 수도 있습니다.

그러나 이러한 핑은 인피니 밴드 패브릭으로 전송되지 않습니다.

링크가 다운 되었기 때문인 것 같습니다. ibstat는 다음을 보여줍니다.

CA 'mlx4_0'
    CA type: MT4100
    Number of ports: 1
    Firmware version: 2.30.3000
    Hardware version: 0
    Node GUID: 0x001405005ef41f25
    System image GUID: 0x002590ffff175727
    Port 1:
        State: Down
        Physical state: LinkUp
        Rate: 10
        Base lid: 9
        LMC: 0
        SM lid: 1
        Capability mask: 0x02514868
        Port GUID: 0x0000000000000000

어떻게하면 되나요? domU 링크는 UP이지만 VF 링크는 아닙니다.


그리고 그 대답은 실제로 여기에 있습니다 :이 링크에 따르면 : http://www.spinics.net/lists/linux-rdma/msg13307.html

슬레이브 VF 포트가 활성화 되려면 무엇이 필요합니까? 다른 상자에서 opensm 3.3.13을 실행하고 있습니다. (SR-IOV에 SM 지원이 필요합니까?)

그렇습니다. Hal이 지적했듯이 최소한 opensm 3.3.14 ( http://marc.info/?l=linux-rdma&m=133819320432335&w=2 )가 필요합니다. SRIOV, 3.3.15도 이제 나왔습니다.이를 지원하는 두 번째 버전이 필요합니다. 기본적으로 PPF와 슬레이브가 SM @ @에 대해 별칭 별칭을 등록하려면 IB 링크가 필요합니다. 우리 (IL 팀)는 휴일로 화요일 / 수요일에 벗어났습니다. 오늘 밤까지 자세한 내용을 얻으려고 노력할 것입니다.

이제 OpenSM을 업그레이드했으며 곧 다시보고 할 것입니다.


편집 : 좋아, 이제 작동합니다. 그러나 opensm에 대한 로그 폭발이 발생합니다. OpenSM 프로세스는 초당 다음과 같은 양식으로 수백 개의 항목을 작성합니다.

Sep 30 20:36:26 707784 [7DC1700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 707810 [7DC1700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708096 [8DC3700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708119 [8DC3700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708391 [FF5B0700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708421 [FF5B0700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708696 [3DB9700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708719 [3DB9700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID

재부팅하면 위의 오류 메시지가 사라지고 Dom0에 더 많은 메모리를 제공했습니다. 현재 자동 풍선을 끈 상태에서 2GB가 할당되어 있습니다. 불행히도, 그들은 명백한 이유없이 돌아 왔습니다. 그래서 여기에 관련된 새로운 질문을 했습니다

왜 그것이 dom0에서 작동하는지 잘 모르겠지만 제 경우에는 VF가있는 Dom0에서 OpenSM을 실행해야합니다. Dom0에서 실행되는 OpenSM 인스턴스가 VF에 대해 알고 있고 다른 노드의 서브넷 관리자가 알 수없는 경우이를 알릴 수 있기 때문입니다. 내 추측이다. 다른 xen 노드가 VF도 가져 오기를 바랍니다. 그것은 또 다른 질문이 될 수 있습니다. 지금은 단일 Xen 노드로 작업하고 있습니다.


"sminfo"는 무엇을 보여줍니까?
Danila Ladner

Dom0에서. sminfo : sm lid 1 sm guid 0x2590ffff1758d1, 활동 수 40515 우선 순위 0 상태 3 SMINFO_MASTER
Matt

재부팅하고 Dom0에 더 많은 메모리 (2GB)를 주면 이러한 오류가 사라진 것 같습니다. 더 많은 메모리 또는 재부팅이 문제가 해결되지 않았는지 확실하지 않습니다.
Matt

고마워요! 이것은 나를 구했다! 스위치에서 SM을 실행했지만 충분하지 않았습니다. 노드 중 하나에서 SM을 시작한 후 (전체 sysfs 매직을 수행 한 후) 이제 VM에 ​​IB가 있습니다!
Jounathaen

1
@ jounathaen-누군가 이것이 유용하다는 것을 알게되어 기쁩니다. 나는 새로운 지평을 열 때 생각했다. 아무도 가본 적이없는 곳으로갑니다.
Matt

답변:


1

상태를 시작하려면 하이퍼 바이저 호스트에 OpenSM을 설치하고 시작해야합니다. 그런 다음 PORTS = "ALL"옵션으로 OpenSM을 시작하십시오.


1
OpenSM은 이미 패브릭의 다른 호스트에서 실행 중입니다.
Matt

더 많은 정보가 맨 아래에 추가되었습니다. 원래 질문
Matt

스위치리스 구성에서 OpenSM은 두 호스트 모두에서 실행되어야합니다.
Danila Ladner

두 개의 스위치가 있습니다. 나는 그들이 관리되지 않는다고 생각하지만
Matt

1
왜 포트 GUID : 0x0000000000000000 ??? 방금 봤어 0이 안된다
다닐라 라드을
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.