NVIDIA K20m (노드의 장치 0)에서 ECC 메모리 보호를 일시적으로 비활성화했으며 이제 다시 작동하도록 가져올 수 없습니다. 그 전에 ECC가 활성화 된 상태에서 제대로 작동했습니다. 그래서 여기에 내가 한 일이 있습니다.
nvidia-smi -i 0 --ecc-config=0
재부팅했다. 그것이 나타 났을 때 100 % GPU 사용률을 보여 주었고 어떤 커널도 시작하지 않을 것입니다 (실제로 컨텍스트를 만들 때 이미 실패했습니다). 그 이유는 더블 비트 오류였습니다. 나는 그것을 재설정
nvidia-smi -i 0 --reset-ecc-errors=0
노드를 재부팅했습니다. 재부팅 후 장치 사용률은 0 % 였고 평소처럼 작업을 시작할 수있었습니다. 몇 시간 후 장치는 다시 100 % GPU 사용률을 보여주었습니다. 이번에는 이중 비트 오류 (단일 비트 오류조차도)를보고하지 않았습니다. 그러나 작업을 실행할 수 없으므로 노드를 재부팅하고 100 % GPU 사용률을 얻었으므로 사용할 수는 없지만 비트 오류는보고하지 않습니다. 이게 뭐가 문제 야?
GPU 0000:02:00.0
Product Name : Tesla K20m
Display Mode : Disabled
Persistence Mode : Enabled
Driver Model
Current : N/A
Pending : N/A
Serial Number : 0324512044699
GPU UUID : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
VBIOS Version : 80.10.11.00.0B
Inforom Version
Image Version : 2081.0208.01.07
OEM Object : 1.1
ECC Object : 3.0
Power Management Object : N/A
GPU Operation Mode
Current : Compute
Pending : Compute
PCI
Bus : 0x02
Device : 0x00
Domain : 0x0000
Device Id : 0x102810DE
Bus Id : 0000:02:00.0
Sub System Id : 0x101510DE
GPU Link Info
PCIe Generation
Max : 2
Current : 2
Link Width
Max : 16x
Current : 16x
Fan Speed : N/A
Performance State : P0
Clocks Throttle Reasons
Idle : Not Active
User Defined Clocks : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
Unknown : Not Active
Memory Usage
Total : 4799 MB
Used : 12 MB
Free : 4787 MB
Compute Mode : Default
Utilization
Gpu : 100 %
Memory : 0 %
Ecc Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Temperature
Gpu : 30 C
Power Readings
Power Management : Supported
Power Draw : 49.51 W
Power Limit : 225.00 W
Default Power Limit : 225.00 W
Min Power Limit : 150.00 W
Max Power Limit : 225.00 W
Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Applications Clocks
Graphics : 705 MHz
Memory : 2600 MHz
Max Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Compute Processes : None
2
이상하게 보인다; 이 같은 것을 발견하지 못했습니다. 문제를 해결하는 데 도움이되지 않더라도 드라이버를 다시 설치해보십시오.
—
벤 Franchuk
나는 당신이 이미 모든 것을 폐기하고 재설치하기 위해 명백한 것을 시도했다고 생각합니까? 나는 하드웨어에 대해 거의 알지 못하기 때문에 내 접근 방식은 항상 소프트웨어-내가 이해하는 것-이 작동하는지 절대적으로 확인하는 것입니다. 그리고 더 지식이 많은 의견에 모순 될 때까지 조각을 깨뜨릴 수 있습니다.
—
Ariane
나는이 문제와 그 원인을 연구하는 데 시간을 보냈을뿐만 아니라 그것을 살펴 보았습니다. 가장 좋은 해결책은 하드웨어를 교체하는 것 같습니다.
—
Adovi
이미 CMOS를 재설정하려고 했습니까?
—
Sergei