파이버 채널 장거리 문제


52

신선한 눈이 필요합니다.

광섬유 채널과 10GbE가 다중화되는 15km 광섬유 라인을 사용하고 있습니다 (패시브 광학 CWDM). FC의 경우 최대 40km ( Skylane SFCxx0404F0D )에 적합한 장거리 레이저가 있습니다 . 멀티플렉서는 최대 SFP에 의해 제한됩니다. 4Gb 파이버 채널. FC 스위치는 Brocade 5000 시리즈입니다. 각 파장은 FC의 경우 1550,1570,1590 및 1610nm, 10GbE의 경우 1530nm입니다.

문제는 4GbFC 패브릭이 거의 깨끗하지 않다는 것입니다. 때로는 트래픽이 많은 경우에도 잠시 동안입니다. 그런 다음 약간의 트래픽 만 있어도 갑자기 오류 (RX CRC, RX 인코딩, RX 디스 패리티 등)가 발생할 수 있습니다. 오류 및 트래픽 그래프를 첨부하고 있습니다. 오류는 현재 1Gb / s 트래픽 사용시 5 분당 50-100 개의 오류 순서입니다.


광학

다음은 한 포트의 전원 출력을 요약 한 것입니다 ( sfpshow다른 스위치에서 사용하여 수집 ).

SITE-A 단위 = uW (마이크로 와트) SITE-B
****************************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko)
      RX 95.2 TX 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm (확인)
      RX 54.3 TX 1468.4      

이 시점에서 제가 궁금한 점은 파워 레벨의 비대칭입니다. SW2가 1422uW로 전송하는 반면, SW4는 104uW로 수신하지만 SW2는 54uW에서만 유사한 원래 전력으로 SW4 신호 만 수신합니다.

SW1-3의 경우도 마찬가지입니다.

어쨌든 SFP는 RX 감도가 -18dBm (약 20uW)까지 떨어 지므로 아무튼 괜찮습니다 ... 그러나 아무것도 아닙니다.

일부 SFP는 제조업체 (위에서 "ko"로 표시된 1550nm)에서 오작동으로 진단되었습니다. 1610nm는 분명히 괜찮습니다. 트래픽 발생기를 사용하여 테스트했습니다. 임대 회선도 두 번 이상 테스트되었습니다. 모두 공차 내에 있습니다. 대체를 기다리고 있지만 어떤 이유로 든 좋은 것으로 ZERO 오류가 발생하지 않기 때문에 더 나은 것으로 생각하지 않습니다.

이전에는 신호를 회선에 연결하기 전에 활성 장비 (일종의 4GFC 리 타이머)가있었습니다. 왜 그런지 모르겠다. 그 장비는 문제로 인해 제거되었으므로 이제는

  • 스위치의 장거리 레이저
  • (신규) 10m LC-SC 모노 모드 케이블을 mux에 연결 (각 패브릭마다)
  • 전용선
  • 같은 것이지만 링크의 다른 쪽에서 반대입니다.


FC 스위치

Brocade의 포트 구성은 다음과 같습니다 portcfgshow(양쪽의 것과 같습니다)

지역 번호 : 0
속도 레벨 : 4G
채우기 단어 (사용 중) 0 (유휴 유휴)
채우기 단어 (현재) 0 (유휴 유휴)
AL_PA 오프셋 13 : OFF
트렁크 포트 ON
장거리 LS
VC 링크 초기화 OFF
원하는 거리 32 Km
예약 버퍼 70
잠긴 L_Port OFF
잠긴 G_Port OFF
비활성화 E_Port OFF
잠긴 E_Port OFF
ISL R_RDY 모드 OFF
RSCN 억제 OFF
영구 불능 OFF
LOS TOV 활성화 OFF
NPIV 기능 ON
QOS E_Port OFF
포트 자동 비활성화 : OFF
속도 제한 OFF
EX 포트 OFF
미러 포트 OFF
신용 회복 ON
F_Port 버퍼 OFF
오류 지연 : 0 (R_A_TOV)
NPIV PP 제한 : 126
CSCTL 모드 : OFF

2GbFC에 대한 링크를 강제 실행하면 오류가 발생하지 않지만 4GbFC를 구입하고 4GbFC를 원합니다.

오류 및 트래픽 그래프

더 이상 볼 곳을 모르겠습니다. 다음에 시도하거나 진행하는 방법에 대한 아이디어가 있습니까?

우리가 4GbFC를 안정적으로 작동시킬 수 없다면 8 명 또는 16 명과 함께 일하는 사람들이 무엇을하는지 궁금합니다. "여기에 몇 가지 오류가있다"고 받아 들일 수 없습니다.

아, 그리고 BTW 우리는 모든 제조사들 (FC 스위치, MUX, SFP, ...)과 접촉하고 있습니다. 브로케이드 SAN 헬스는 패브릭에 문제가 없다고 말합니다. MUX는 수동적이며 프리즘 일뿐입니다.

어둠 속에서 어떤 샷?


부록 : 질문에 대한 답변

@ Chopper3 : 문제를 나타내는 2 세대 Brocades입니다. 5000을 갖기 전에 5100을 갖습니다. 우리가 여전히 활성 MUX를 가지고 있던 초기에는 장거리 레이저를 한 번 빌려 스위치에 직접 연결하여 하루 동안 테스트를 수행했습니다. 물론 그 날에는 깨끗했습니다. 그러나 내가 말했듯이 때로는 때로는 그렇게 깨끗합니다. 때로는 그렇지 않습니다. 대체 스위치는 테스트 할 스위치만으로 전체 SAN을 재구성하는 것을 의미합니다. 대체 SFP도 마찬가지입니다.

@longneck : 라인이 대여되었습니다. 어두운 광섬유 (9um 모노 모드)이므로 다른 사람이 없습니다. 물론 스플 라이스가 있습니다. 나는 갈 수 없어 보이지만 그들이 올바르게 이루어 졌다는 것을 믿어야합니다. 내가 말했듯이 라인이 확인되고 다시 확인되었습니다 (광학 시간 영역 반사 계를 사용하여). 너무 비싸기 때문에이 장비를 모두 가지고 있지는 않습니다.

@mdpc : "잘못된"케이블 유형은 무엇입니까? 스위치까지 모든 것이 모노 모드입니다. 커넥터도 올바른 것입니다. 예, 섬유가 특정 각도 등으로 잘리는 녹색이 있다는 것을 알고 있습니다. 그러나 우리는 내가 아는 모든 것에 대해 올바른 것을 가지고 있습니다.


진행 보고서 # 1

FabricOS 6.4.1이 포함 된 Brocade 5100과 2 개의 패브릭 (= 2x2 스위치)과 FabricOS 7.0.2에 2 개의 패브릭 (또 다른 2x4 스위치)이 있습니다.

장거리 ISL (각 패브릭마다 하나씩)에서 FOS 6.4.1을 사용하여 장거리로 설정하면 VC Init 설정에 대한 경고와 결과적으로 필 단어가 표시됩니다. 그러나 이것들은 단지 경고 일뿐입니다. FOS 7.0.2 에서는 VCI 및 장거리 링크의 필 워드를 수정해야합니다.

잘못된 VCI 및 필 워드 설정을 사용하여 FOS 6.4.1을 LS (장거리 정적 거리) 설정으로 설정하면 전체 패브릭이 작동 fabriclog -s하지 않게되었습니다 ( SCN 루프에 멈춤, 다른 곳에서는 볼 수 없음, 포트 오류 없음) 카운터 또는 증가하는 것).

현재 IMHO를 사용하는 하나의 패브릭에 더 정확한 설정을 제공하고 있으며, 많은 트래픽이없는 다른 패브릭에는 여전히 오류가 있습니다.

progress1

한마디로 :

  • MUX (FC 리 타이머)의 활성 부분을 제거했습니다.
  • 우리는 장거리 SFP를 최종 장비 자체에 적용하고 있습니다.
  • 최종 장비를 MUX의 나머지 수동 부품에 연결하기 위해 새로운 모노 모드 케이블을 구입했는지 확인하십시오.
  • 우리는 지금 몇 가지 장거리 구성을 시도하고 있습니다.

거의 검은 마법이다. 일어나는 모든 일은 대부분 경험적이며, 누군가가 무언가를해야하는 정확한 이유가 무엇인지에 대한 단서가없는 것 같습니다. ( "우리는 이것을 시도했지만 작동하지 않았다. 그리고 우리는 그것을 시도했고 작동했다. 그래서 우리는 그것을 고수했다."

계속 업데이트하겠습니다.


진행 보고서 # 2

우리는 보증에 대한 직물 중 하나에 대한 새로운 레이저를 얻었다. 4GbFC에서도 매우 깨끗합니다.

그들은 대략 2mW (3dBm)로 전송하는 반면 다른 것들은 1.5mW (1.5dBm)에 불과하지만 실제로 충분합니다.

다른 직물 (레이저가 괜찮은 곳)은 여전히 ​​한두 개의 CRC를 생성합니다.

sfpshow실제 RX 오류를 생성하는 SFP를 사용 하면

상태 / Ctrl : 0x82
알람 플래그 [0,1] = 0x5, 0x40
경고 플래그 [0,1] = 0x5, 0x40

이제 이것이 무엇을 의미하는지 알아봐야합니다. 그것이 전에 있었는지 확실하지 않습니다.

우선 일주일의 휴가로 머리를 정리하겠습니다. 8-)


8
우선,이 사이트가 무엇을위한 것인지에 대한 훌륭한 질문입니다. 둘째, 대체 스위치 / SFP에 액세스 할 수 있습니까? 이상적으로 테스트를 위해 교체 할 수있는 다른 제조업체 / 모델이 있습니까?
Chopper3

4
위대한 갱신, 좋은 일을 계속, 나는 몇 가지 제안이나 조언이 있었으면 좋겠다 있지만, 바른 길에 자신의 물건을 :) 알고 SF에 새 사용자 찾을 좋은 것
Chopper3

1
오류 시간이나 기간에 일관성이 있습니까? 그들은 항상 N 시간에 발생합니까? 그들은 항상 X 분 지속됩니까? 날씨, 근처의 스포츠 행사 또는 기타 현상과 연관시킬 수 있습니까? 간헐적 인 문제는 스쿼시하기 가장 어려운 버그이며, 일반적으로 화이트 보드에서 발생하는 시간과 지속 시간을 그래프로 표시하여 공격을 시작합니다. 다른 현상 과 관련이있을 수있는 후두둑이 있기를 바랍니다 .
dotancohen

2
모든 사람이 볼 수있는 화이트 보드에서 추적하고 있습니까? 나는 누르지 않을 것이지만 강력히 추천한다. 당신이 말했듯이, 당신은 신선한 눈의 쌍이 필요하며 아마도 조직의 누군가가 패턴이 시간 / 지속에서 나타나고 반드시 증상에서 나오는 것을 볼 수는 없습니다.
dotancohen

1
안녕 Marki. 나는 당신이 말하는 것에 전적으로 익숙하지는 않지만, 마지막 업데이트로 문제가 교체 SFP에 의해 수정 된 것처럼 보입니다. 그렇다면, 이것을 답변으로 게시하고 추가 문제가있는 경우 새 질문을하는 것이 좋습니다.
Mark Henderson

답변:


4

좋아, 답변을 게시해야한다고 생각합니다. 한마디로 그것은 주장한다 .

우리는 여전히 1 (1) CRC 오류를 가진 하나의 패브릭을 산발적으로 가지고 있기 때문에 문제는 100 % 좋아하지 않습니다. 다른 하나는 깨끗합니다. 그러나 나는 그걸로 살 수 있습니다.

어쨌든 우리는 CWDM 장치를 오랫동안 사용하지 않을 것이지만 내년에는 인프라가 많이 바뀌므로 수동 DWDM 멀티플렉서로 전환합니다. 분명히 DWDM 레이저는 CWDM 레이저보다 저렴합니다. 오, 우리는 아마 당신에게 물어볼 많은 문제가있을 것입니다 :-)


위의 Nope를 업데이트 하고 CWDM을 다시 구입했으며 실제로는 저렴합니다. 그러나 특정 응용 분야의 AFAICS 는 CWDM 레이저가 없기 때문에 DWDM으로 이동 해야 합니다. 마지막으로 우리는 가능한 한 제조업체와 가까워 지려고 노력했으며 유통 업체 나 통합 업체로부터 구매하는 것과 비교하여 모든 것이 가격의 약 1/5에 도달했습니다.


따라서 예상대로 작동하지 않는 솔루션을 구입했다면 주장 할 수 있습니다. 기술적 인 측면에서 우리는 두 가지 일을했습니다

  • MUX의 활성 부분을 제거하십시오 (후회할 수는 없지만 마지막으로 다른 오류 원인인지 확실하지 않습니다)
  • SFP를 철저히 점검하십시오

(물론 모든 표준 진단은 한 번에 하나씩 변경하고, 어떤 일이 발생하는지 확인하고, 말할 필요가 없습니다. 따라서 불행히도 우리의 비용으로 각 회선과 케이블 등도 검사했습니다.)

이 경우에는 오랜 시간이 걸렸지 만 결국 제조업체 자체가 도움이되는 점검을 수행하기 위해 몇 사람과 장비를 아끼는 수준에 도달했습니다. 물론 하드웨어가 유지 보수 중이므로 통합 업체가 지불해야합니다. 따라서 이것은 기술적 인 것만큼이나 상업적인 도전이었습니다.

추신. 아, 그리고 마지막 업데이트에서 언급 한 플래그는 나쁜 것을 나타내지 않지만 정확한 의미를 기억하지 못합니다. 진술을 찾으면 완전성을 위해 답변을 업데이트합니다.


결국, 깃발은 결국 나쁜 것을 의미했습니다. 그러나 링크의 어느 쪽이 오류의 원인인지는 확실하지 않습니다. 따라서 그 쌍도 변경되어야합니다.

아 그리고 BTW, 8GbFC DWDM 트랜시버는 8G CWDM에 비해 저렴합니다 .-) 가장 저렴한 방법은 CWDM에서 4GbFC이며 ISL 트렁킹을 사용하는 것입니다 (라이센스가있는 경우)


안타깝게도 요청을 받았을 때 이것을 보지 못했습니다. 이것이 도움이 될 것이라고 확신 할 수는 없지만 유휴 유휴 필 워드를 사용하는 경우 많은 빛을 보내고 있습니다. 이것은 각각의 사용되지 않은 프레임이 많은 전력을 끌어 당기고 SFP에서 많은 열을 생성한다는 것을 의미합니다. 필 워드를 다른 모드로 변경하면 (모드 3을 사용하지만 다른 스위치와 SFP가 있음) 더 적은 오류로 더 많은 처리량을 푸시 할 수 있습니다.
Basil

@Basil 올바른 필 워드를 사용하는 것이 8GFC에서 단어 동기화에 문제가 있다는 것을 알았지 만 이런 식으로 생각했습니다 ...
Marki

내가 알 수있는 한 언제든지 사용하는 것이 좋습니다. 유휴 프레임으로 인해 SFP가 얼마나 많은 간섭을 일으키는 지에 대한 질문입니다.
Basil
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.