트랜지스터가 너무 많을 때 CPU가 어떻게 안정적 일 수 있습니까?


10

CPU가 단일 썸네일에있는 수십억 개의 트랜지스터라는 것을 알고 있습니다. 트랜지스터 중 하나가 고장 나면 어떨까요?

CPU에 자동 복구 메커니즘이 있습니까?


6
실제로 오늘날 더 큰 것은 수십억 개의 트랜지스터를 포함하고 있습니다.
starblue

6
"안정성"은 아마도 전이성 (metastability)과 같은 문제에 더 초점을 맞추기 때문에 아마도 올바른 단어가 아닐 것입니다. 이 주제에 대한 더 나은 선택은 '무 결함'또는 '수율'과 같은 단어입니다. 또는 결과 칩이 아닌 제조 공정의 안정성에 대해 문의 할 수 있습니다.
Chris Stratton

2
@ChrisStratton, OP가 수율보다 신뢰성에 대해 더 많은 것을 요구한다고 생각합니다.
광자

1
트랜지스터 중 하나가 끊어지면 칩을 버립니다. 중복성이없고 (특정 응용 프로그램 제외) 수리 옵션이 없습니다.
Dmitry Grigoryev

답변:


18

간단합니다. 판매하기 전에 테스트하고 나쁜 것을 버립니다.

이 작업을 수행하는 많은 방법이 있습니다. 다른 사람들이 다른 일을하고 종종 다음 조합을 사용합니다

  • 일부 테스트는 빠르게 진행되도록 속도가 빠릅니다.

  • 다른 테스트에는 칩의 일부 또는 모든 플립 플롭을 거대한 직렬 시프트 레지스터로 변환하는 모드가 포함되어 있습니다. 알려진 데이터를 해당 체인에 클록 한 다음 칩을 한 클록으로 실행 한 다음 새로운 결과를 다시 스캔하여 일치하는지 확인합니다. 당사의 예측 결과-자동 테스트 툴은 칩의 모든 랜덤 게이트 또는 트랜지스터를 테스트하는 최소 "스캔 벡터"세트를 생성합니다. 다른 벡터는 램 블록에 대한 특수 테스트를 수행합니다.

  • 다른 사람들은 외부 전선이 모두 올바르게 결합되었는지 테스트합니다.

  • 우리는 그것이 건강에 해로운 양의 전류를 당기지 않도록합니다

테스트 시간은 비용이 많이 들며, 때로는 불량 칩을 폐기하기 위해 포장하기 전에 명백한 죽은 칩에 대한 간단한 테스트를 수행 한 다음 포장 완료 후 더 많은 테스트를 수행합니다.


1
"단순하다. 우리는 그것들을 팔아서 나쁜 것들을 버리기 전에 테스트한다." 이것이 유일한 품질 시스템이라면 10 억 개의 트랜지스터 장치로 0.00000000001 %의 수율을 가질 것입니다
Federico Russo

2
정말 간단합니다. 트릭은 사전에 매우 많은 양의 시뮬레이션 및 규칙 검사를 통해 수율이 수용 가능한지 확인합니다. CPU 로직 자체에는 중복성이 거의 없습니다. 때로는 온칩 RAM에 약간의 중복성이 있습니다.
pjc50

설계가 올 바르면 재료 결함, 오염, 공정 오류 등으로 인해 개별 장애가 발생합니다. 사용중인 웨이퍼 크기는 거의 없지만 크기가 클수록 결함이 발생할 가능성이 높아 지므로 더 큰 IC는 비례 크기보다 비쌉니다. 지역. 경우에 따라 판매되는 것보다 더 많은 기능 단위를 가진 칩을 가질 수 있으므로 불량한 경우 여전히 판매 가능할 수 있지만 제한적입니다. 때로는 임의의 파일로 작업하지 않고 특정 구성 파일에서 사용하는 대로만 테스트되는 할인 된 가격으로 FPGA를 구입할 수 있습니다.
Chris Stratton

2
불량 코어가 장착 된 다른 모델로 불량 코어가있는 프로세서를 판매하는 AMD와 같은 제조업체를 언급하는 것을 잊었다 고 생각합니다. 그것은 일종의 중복 또는 영리한 마케팅 일 것입니다.
akaltar

회색 시장 부품이 어떻게 공급되는지 궁금한 사람은 더 이상 궁금하지 않아야합니다. 저는 칩 팹 시스템의 소프트웨어 엔드에서 일했으며 여기에 설명 된대로 자동화 된 테스트는 플랜트의 시간과 비용의 막대한 양입니다.

12

다른 사람들의 말을 조금 더 확장하려면 : 검증이 있고 그 후에 칩 분류가 있습니다.

CPU의 트랜지스터는 더 높은 주파수에서 문제를 나타내는 경향이 있으므로 하나의 CPU를 만든 다음 여러 다른 제품으로 판매하는 것이 일반적입니다. 더 저렴한 CPU는 실제로 비싼 CPU의 손상된 버전입니다. 다른 옵션은 CPU의 특정 부분을 비활성화하는 것입니다. 예를 들어, AMD는 BArton 코어로 프로세서를 만들었습니다. Thorton 코어가 장착 된 프로세서도 판매했습니다. Thorton은 새로운 핵심이 아니 었습니다. 대신 L2 캐시의 절반에 결함이 있고 비활성화되었습니다. 이런 식으로 AMD는 다른 방식으로 낭비되었던 CPU를 일부 복구했습니다.

AMD의 3 코어 프로세서에서도 마찬가지입니다. 원래 4 개의 코어 프로세서 였지만 코어 중 하나에 결함이있는 것으로 확인되었으므로 비활성화되었습니다.


2
퓨즈를 날려 비활성화 할 수있는 기능을 갖춘 칩 설계를 만드는 것은 드문 일이 아닙니다. 칩 수율의 간단한 경제성, 칩을 느리게 실행하거나 테스트에 실패한 기능을 비활성화하여 칩의 일부 또는 전부를 구할 수 있다면 전체 부품을 버리지 않고 해당 부품 비용을 일부 회수 할 수 있습니다. 예를 들어 인텔 386 SX 및 DX로 돌아갈 수 있습니다. 거의 모든 CPU는 속도 등급이 매겨져 있습니다. 느린 부분은 빠른 속도로 고장난 부분입니다.
old_timer

2
아니요, 386SX / 386DX가 아닙니다. 이 칩들은 완전히 다른 버스 인터페이스를 가지고 있습니다. 386SX를 얻기 위해 386DX의 일부만 비활성화하는 것은 아닙니다. 486DX / 486SX는 FPU가 비활성화 된 후자입니다.
Michael Karcher

6

귀하의 질문에 대한 답변은 "아니오"입니다. 현재 하드웨어 장애에 대한 자동 복구 방법은 없습니다.

제조업체는 웨이퍼에서 가능한 최고의 수율 (달러)을 얻기 위해 프로세스를 설계합니다. 트랜지스터를 축소함으로써 더 많은 영역에 더 많은 기능을 적용 할 수 있습니다. 이것은 웨이퍼 당 더 많은 칩 (동일한 기능)으로 생각할 수 있습니다. 칩 크기가 줄어들면 웨이퍼에서 더 많은 것을 얻을 수 있지만, 줄어들면 더 많이 나빠집니다. 제조사들은 이것을 받아들이고 칩을 축소하기 위해 기술의 한계를 끊임없이 밀고있다. 그들이 봉투의 가장자리에 있다고 말하는 것은 불량 칩입니다.

회사가 피처 크기를 기존 피처 크기의 70 %로 축소 할 수 있으면 웨이퍼 칩 수의 약 2 배를 얻을 수 있습니다. 이전 프로세스의 수율이 95 % (예 : 웨이퍼의 100 개 중 95 개 칩 칩)와 새 프로세스의 수율이 75 % (웨이퍼의 200 개 중 150 개 칩)이면 돈을 벌 수 있습니다. 새로운 과정.


5
NAND 플래시 메모리와 같은 일부 유형의 칩의 경우 제조업체는 일반적으로 제로 결함 칩이 표준이 될 수있는 수준 이상으로 봉투를 밀고 있지만 대부분의 고장은 다소 예측 가능한 특성을 가지며 칩을 사용하는 장치는 그들 주위를 해결하십시오.
supercat

3

작은 노드에서 SRAM과 같은 메모리가 없으면 각 "트랜지스터"는 2 개의 게이트입니다. 작동하지 않으면 드라이버가 느리다는 것입니다. SRAM의 경우 통과하지 못하면 행을 "블로우"만하면됩니다. 트랜지스터의 FET가 모두 고장 나면 모래가 매우 비싸지 만 개인적으로는 그런 일이 없었습니다. 현대 FinFET는 매우 작으며, 리소그래피 및 확률의 특성으로 인해 많은 생산 문제 (주로 번거 로움)가 있습니다. 불량 셀을 "블로우 (blow)"하고 라우팅 그래프를 변경할 수 있기 때문에 새로운 프로세스에서 가장 먼저 FPGA를 찾을 수 있습니다. 나는 당신에게 숫자를 줄 수는 없지만 x86 세계가 비닝하는 방식으로 추측 할 수 있습니다.

XOR 셀의 레이아웃은 다음과 같습니다. XOR

왼쪽 / 오른쪽 녹색 막대는 지느러미이며 빨간색은 폴리입니다. 파란색은 레벨 1의 유색 금속입니다.

상용 CPU에는 자동 복구 메커니즘이 없지만 학계 및 특수 응용 프로그램 CPU에 떠있는 것들이 있습니다. 비동기 아키텍처를 사용하여 게이트가 잘못되어 발생하는 클럭 문제를 해결하기 위해 특수한 구성 요소를 만들었습니다. 단지 느린 트랜지스터를 얻는 핫 캐리어로 구멍의 산화물을 파괴합니다.


3

분명히 시간이 변경되었습니다. 이 질문에 대한 5 살짜리 답변 중 많은 부분이 더 이상 예술의 상태를 반영하지 않고 일부는 정확하지 않았습니다.

IC가 과열되지 않는 경우 실리콘의 트랜지스터 및 기타 장치는 제조 후 상당히 안정적입니다.

결함을 최소화하기 위해 현대 IC 제조 공정에서 수행되는 작업은 다음과 같습니다.

  • IC는 설계 검증 및 검증 수준과 개별 시편 테스트 모두에서 광범위하게 테스트됩니다. 이 백서 에서는 펜티엄 4의 일부 테스트 절차에 대해 설명합니다.
  • IC의 전체 설계는 이제 너무 복잡하여 완전히 검증 할 수 없습니다
  • IC에는 프로그래밍 가능한 마이크로 코드가있어 제조 후 결함이 발견 될 경우 제한된 수준의 재 프로그램 가능
  • 최신 IC에는 여분의 실리콘 층이 포함되어있어 제조 과정에서 발견 된 결함을 수정할 수 있습니다.
  • 많은 CPU에는 CPU 코어, 캐시 메모리 또는 기타 IP에 관계없이 중복 하드웨어 모듈이 있습니다. 모든 장치가 작동하지 않는 경우 일부 장치를 비활성화하고 저비용 부품으로 "제본"할 수 있습니다. 한 예로 PS4 멀티 코어 IC에는 더 높은 수율을 달성하기 위해 비활성화 된 중복 코어하나 있습니다.
  • 일부 CPU는 최고 속도로 작동하지는 않습니다. 저속, 저가 CPU로 판매 가능
  • 많은 CPU 및 RAM이 ECC (error correction coding) 메모리를 사용하거나 데이터 전송의 다양한 단계에서 메시지 유효성 검사 오류 수정을 수행하여 무결성 보장
  • 때때로 프로세서가 시스템 충돌을 유발하는 방식으로 실패하지만 재부팅 할 때 시스템이 다시 작동하지 못하게하지 않습니다 (CMOS 래치 업)

프로세서의 공식 사양에서 프로그래밍 오류는 특정 트랜지스터의 오류보다 더 가능성이 높습니다.

일반적인 CPU에는 자동 복구 기능과 같은 것이 없지만 자체 재설정 CPU에 대한 작업 도 있습니다. 우주 광선에 대한 대책으로 . 우주 광선은 CPU 또는 RAM에 충분한 에너지를 축적하여 비트 충돌을 일으킬 수 있습니다.

의견에서 지적했듯이 미션 크리티컬 시스템은 오랫동안 검증을 위해 여러 CPU에 의존했습니다. 우주 왕복선, 1976 년 다시는 , 하나의 예로서, 같은 프로그램을 실행하고 안전을 보장하기 위해 모든 비행 제어 결정에 "투표"네있는 5 대의 컴퓨터를 사용했다.


ECC 및 오류 감지는 꽤 오랫동안 사용되었습니다 (메모리 및 통신, 산술 및 유사한 논리 기능을 위해 일부 고급 시스템은 수년 동안 오류 감지를 수행했습니다). 마찬가지로 하드웨어 / 실행 시간의 비용이 정당한 시스템에서 상당 시간 동안 오류를 감지하기 위해 중복 실행 (공간 또는 시간)이 사용되었습니다.
Paul A. Clayton

@ PaulA.Clayton Itanium 및 나중에 Xeon RAS 기능에 대해 글을 올리면 분명히 투표하게되어 기쁩니다.
Oleksandr R.

2

대부분의 최신 프로세서 트랜지스터는 FET입니다. 이것들은 과부하를 시작할 때 소스 / 드레인 저항을 얻는 이점이 있습니다. 이는 많은 병렬 처리를 통해 고전력 MOSFET을 만들 수있는 한 가지 요소입니다. 하중이 자동으로 분배됩니다. 문제를 배포하는 데 도움이 될 수 있습니다. 그러나 나는 그것이 그보다 훨씬 간단하다고 생각합니다.

대부분의 전자 부품과 마찬가지로 사양 내에서 운전하면 꽤 오래 지속됩니다. 마이크로 프로세서를 만들 때 비용에는 두 가지 요소가 있습니다. 실리콘상의 공간과 복잡성 때문에 실제 수율. 제조 후 모든 칩이 작동하는 것은 아닙니다. 그러나 일단 검증이 완료되면 트랜지스터가 양호하다는 것을 알 수 있습니다. 사양 내에서 추진된다면, 그들이 좋은 상태를 유지할 가능성이 있습니다.


2

왜 같은 칩이 때때로 다른 속도로 판매되는지 궁금한 적이 있습니까? 때로는 동일한 GPU 칩 아키텍처가 다른 수의 내부 장치와 함께 판매되는 것을 보셨습니까?

실리콘 수준에서 하드웨어 결함을 고치는 방법은 없지만 시간이 지남에 따라 설계자들은 수율 을 높이는 문제를 해결하는 방법을 배웠다 . 예측없이 생산량은 전적으로 제조 품질에 달려 있습니다. 그러나 영리한 사람이라면 불량 칩을 복구 할 수 있습니다.

예를 들어, 독립적으로 작동하는 18 코어 칩 설계가 있다고 가정 해 봅시다. 테스트하는 동안 완벽한 칩을 분류하여 A18 모델로 출시합니다. 대부분의 실패한 칩에는 하나의 오류 만 있으므로 결함이있는 코어가 비활성화되어 있으면 제대로 작동합니다. 약간 낮은 가격으로 A17 모델로 판매하고 불량 코어가 2 개인 제품은 A16 모델로 판매됩니다.

칩의 속도 등급에도 동일하게 적용될 수 있습니다. 완벽하게 제조 된 칩은 설계 사양 이상의 속도로 작동 할 수 있지만 문제가있는 칩은 그렇지 않을 수 있습니다. 이들은 저속 사양으로 판매됩니다.

이 방법은 전체 수율을 극적으로 증가 시키므로 일반적으로 볼 수 있습니다. 예를 들어 PlayStation 3에는 하드웨어에 8 개의 SPE 장치가 있지만 수율 문제를 해결하기 위해 항상 비활성화되어 있습니다.


1

CPU에 자동 복구 메커니즘이 있습니까?

위에서 설명한대로 아니요. 그러나 캐시, 특히 L2 및 L3에는 추가 RAM이있을 수 있습니다. 공장에서 부품을 테스트 할 때 불량 RAM 블록을 제거하고 여분의 RAM 블록을 사용할 수 있습니다.


1

일반적으로 아니오, 칩 스크린을 통해 불량 트랜지스터를 덮으면 그 후에 비교적 적은 비율의 손실이 예상됩니다. 칩 사업은 수십 년 동안이 기술을 관리하기위한 많은 트릭을 가지고있었습니다. 때로는 트릭 중 하나는 불량 부품을 꺼내어 무료로 교체하거나 고객을 불행하게 만드는 것입니다.

방사선 경화 환경 (공간)의 경우 트리플 투표일 가능성이 높습니다. 모든 "비트"에는 실제로 하나를 만들기 위해 투표하는 3 개의 비트가 있습니다. 비트 설정을 결정하는 데 2/3 만 걸립니다. 다른 3 분의 1의 트랜지스터는 나빠질 수 있으며 결국에는 총 용량으로 처리됩니다. 그러나 가장 큰 관심사는 단일 이벤트에 대한 불만입니다. 이러한 칩과 시스템은 위에서 아래로, 실리콘, 하드웨어, 소프트웨어 등에서 이러한 환경에 맞게 설계되었습니다. 또한 첨단 기술이 아닌 오래되고 검증 된 기술을 사용하므로 트랜지스터의 수와 크기는 몇 년 전부터있었습니다.

COTS는 때때로 딸꾹질을하며 실패합니다.


-1

기적처럼 보이지만 트랜지스터 고장의 양을 줄이는 데 사용되는 많은 메커니즘이 있습니다. 그러나 트랜지스터에서 발생하는 장애 유형과 위치에 따라 특정 조건에서 CPU를 계속 사용할 수도 있고 사용하지 않을 수도 있습니다.

현재는 자동 복구 메커니즘이 내장되어 있지 않지만이 문제를 최소화하기 위해 재구성 가능한 컴퓨팅, 중복성 및 기타 기술에 대한 많은 연구가 진행되고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.