GPU가 죽습니까?


14

NVIDIA K20m (노드의 장치 0)에서 ECC 메모리 보호를 일시적으로 비활성화했으며 이제 다시 작동하도록 가져올 수 없습니다. 그 전에 ECC가 활성화 된 상태에서 제대로 작동했습니다. 그래서 여기에 내가 한 일이 있습니다.

nvidia-smi -i 0 --ecc-config=0

재부팅했다. 그것이 나타 났을 때 100 % GPU 사용률을 보여 주었고 어떤 커널도 시작하지 않을 것입니다 (실제로 컨텍스트를 만들 때 이미 실패했습니다). 그 이유는 더블 비트 오류였습니다. 나는 그것을 재설정

nvidia-smi -i 0 --reset-ecc-errors=0

노드를 재부팅했습니다. 재부팅 후 장치 사용률은 0 % 였고 평소처럼 작업을 시작할 수있었습니다. 몇 시간 후 장치는 다시 100 % GPU 사용률을 보여주었습니다. 이번에는 이중 비트 오류 (단일 비트 오류조차도)를보고하지 않았습니다. 그러나 작업을 실행할 수 없으므로 노드를 재부팅하고 100 % GPU 사용률을 얻었으므로 사용할 수는 없지만 비트 오류는보고하지 않습니다. 이게 뭐가 문제 야?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None

2
이상하게 보인다; 이 같은 것을 발견하지 못했습니다. 문제를 해결하는 데 도움이되지 않더라도 드라이버를 다시 설치해보십시오.
벤 Franchuk

나는 당신이 이미 모든 것을 폐기하고 재설치하기 위해 명백한 것을 시도했다고 생각합니까? 나는 하드웨어에 대해 거의 알지 못하기 때문에 내 접근 방식은 항상 소프트웨어-내가 이해하는 것-이 작동하는지 절대적으로 확인하는 것입니다. 그리고 더 지식이 많은 의견에 모순 될 때까지 조각을 깨뜨릴 수 있습니다.
Ariane

나는이 문제와 그 원인을 연구하는 데 시간을 보냈을뿐만 아니라 그것을 살펴 보았습니다. 가장 좋은 해결책은 하드웨어를 교체하는 것 같습니다.
Adovi

1
이미 CMOS를 재설정하려고 했습니까?
Sergei

답변:


2

GPU가 죽습니까?

나는 이미 죽었다고 말합니다. 비트 오류를 ​​감지하는 기능을 해제했기 때문에 더 이상 비트 오류를 보고 하지 않습니다 . ECC 수정할 수있는 것 이상을 감지 합니다. 그러나 오류가 발생한 것은 카드의 메모리 (또는 실제 카드 자체) 일 수 있습니다.

"재활용"빈에 넣기 전에 냉각과 전원 공급 장치라는 두 가지 다른 용의자가 있습니다. 냉각은 점검하기에 충분히 쉽습니다. 힘은 많지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.