현재 사용 가능한 GPU가 배정도 부동 소수점 산술을 지원합니까?

17

24 개의 Intel Xeon CPU를 포함하는 노드로 구성된 Ubuntu Linux 클러스터에서 MD (Molecular Dynamics) 코드 GROMACS 를 실행했습니다 . 내 관심의 대상은 부동 소수점 산술 정밀도에 다소 민감하다는 것이 밝혀 졌으므로 배정 밀도의 높은 계산 비용에도 불구하고 단 정밀도가 아닌 배정 밀도로 GROMACS를 실행해야했습니다. 클러스터에서 GROMACS를 배정도로 컴파일했습니다.

CPU에 비해 속도가 상대적으로 높기 때문에 ( "GPU 가속") 일부 GPU 구매를 고려하고 있습니다. 그러나 배정도 산술을 수행 할 수있는 GPU가 필요합니다. 그러한 하드웨어가 상업적으로 이용 가능한지 아십니까? GROMACS 메일 링리스트 의 최근 게시물에 따르면 배정 밀도 GPU는 상업적으로 이용할 수 없습니다.

하드웨어는 아직 AFAIK를 지원하지 않습니다 [배정 밀도 산술].

이 Wikipedia 페이지 는 배정 밀도 GPU가 비효율적 일 수 있기 때문에 일반적이지 않다고 제안합니다.

Nvidia GPU에서 부동 소수점 구현은 대부분 IEEE를 준수합니다. 그러나 이것이 모든 공급 업체에 해당되는 것은 아닙니다. 이것은 일부 과학적 응용에 중요한 것으로 간주되는 정확성에 대한 영향을 미칩니다. 64 비트 부동 소수점 값 (배정 밀도 부동 소수점)은 CPU에서 일반적으로 사용 가능하지만 GPU에서는 보편적으로 지원되지 않습니다. 일부 GPU 아키텍처는 IEEE 준수를 희생하는 반면, 일부 GPU 아키텍처는 배정 밀도가 부족합니다. GPU에서 배정 밀도 부동 소수점 값을 에뮬레이션하려는 노력이있었습니다. 그러나 속도 트레이드 오프는 계산을 GPU로 오프로드하는 이점을 먼저 무효화합니다.

차트에서 "피크 배정 밀도 부동 소수점 성능"을 참조하는 이 NVIDIA Tesla 페이지 는 실제로 배정 밀도 계산 이 GPU에서 수행 될 수 있음을 시사하는 것 같습니다 (더 높은 계산 비용에도 불구하고).

그래서 무엇을 믿어야합니까? 이 문제에 대한 경험이 있습니까?

— 앤드류
소스

..... 그 비트 비용이 많이 드는하지만 ..... 약 $ 1,000이 gk110 기반으로 두 번 pricision 지원이되는 타이탄 GTX는 체크 아웃

Wikipedia에 빠르게 변화하는 주제에 대한 최신 정보가 항상있는 것은 아닙니다.

— Jeff

17

새로운 GPU에서는 배정 밀도가 상당히 일반적입니다. 예를 들어, ViennaCL을 배정도로 실행하는 데 아무런 문제가없는 NVIDIA GTX560 Ti (컴퓨팅과 관련하여 상당히 저렴한)를 소유하고 있습니다. 에서 여기 (섹션 4) 은 GTX4xx에서 모든 NVIDIA 카드는 이후 기본적으로 배정 밀도를 지원 나타납니다.

GROMACS 정보가 단순히 구식이라고 생각합니다.

— 고 드릭 시어
소스

5

매우 구식입니다. 특히 NVIDIA 프로세서는 수년간 배정도 지원을 해왔습니다. 솔직히 말해서 단 정밀도 기능보다 속도가 느 렸지만 첫 번째 Tesla 브랜드 GPU에 있었으며 그 이전에 아마도 에뮬레이션되지 않았습니다. 보다 최근의 화신은 신호와 배정 밀도 지원 사이의 간격을 상당히 줄였습니다.

— 마이클 그랜트

예, 에뮬레이션이 필요할 때 성능에서 대략 8 배의 성능 차이를 언급 한 논문을 연결했지만 이제는 칩을 위해 설계되었으므로 2 배에 가깝습니다. VRAM에서 프로세서까지의 카드 메모리 대기 시간이지만 이는 제 추측입니다.

— Godric Seer

실제로 주요한 이유는 초기 GPU가 배정도 계산에 많은 칩 공간을 할당하지 않았기 때문입니다. 이 페이지 에 따르면 , GK110 시리즈는 GK104 시리즈보다 "SMX 블록"당 8 배의 배정 밀도 단위 (그것이 무엇이든)를 가지고 있습니다.

— 마이클 그랜트

1

아, 그렇습니다. 실제로 메모리 대역폭 주석과 관련하여 현재 GPU의 2 배 차이를 언급했습니다.

— Godric Seer

알았어 나는이 토끼 구멍을 내려 가려고하지 않았습니다. 당신의 대답은 괜찮습니다. 그래서 나는 내 자신의 대답을 추가하는 대신 의견을 표하고 투표했습니다. ;-)

— Michael Grant

8

SM 1.3 (Tesla / GTX2xx) 이상의 모든 GPU에는 하드웨어 배정 밀도 지원이 있습니다. Fermi 아키텍처부터 Quadro 및 Tesla 변형은 소비자 Ge Force 모델보다 더 나은 배정 밀도 지원을 제공합니다.

이상한 점은 Ge Force Kepler / GTX6xx 배정 밀도 지원이 Kepler K20 / K20x에서 Tesla 차별화를 개선하기 위해 GeForce Fermi / GTX5xx 지원보다 열등하다는 것입니다. 테슬라 K10은 이상한 점을 보완하여 Ge Force 수준의 배정도 지원을 제공합니다. 그리고 가장 최근에는 완전한 배정 밀도 지원과 현재까지 Tesla 모델에만 존재하는 많은 CUDA 기능을 갖춘 Ge Force GTX Titan이 출시되면서 완전히 혼란에 빠졌습니다. GTX 타이탄의 가격은 ~ 1,000 달러이며 비명을 지르는 IMO입니다.

2

또한 GROMACS 메일 링리스트 ( http://lists.gromacs.org/pipermail/gmx-users/2013-April/080604.html) 에서 후속 게시물을 읽어야합니다 . MD의 GPU 구현이 배정도의 사용을 비슷한 정도로 지원하는지 여부는 하드웨어에서 배정도를 사용할 수 있는지 여부만큼이나 중요합니다.

— 마 브라함
소스

0

이 논의 에 따르면 Tesla 및 Titan GPU는 배정도에 가장 적합한 (Nvidia GPU)입니다.

예를 들어 Wikipedia의 Nvidia GPU 목록 (AMD GPU와 비슷한 표가 여기 있음 )을보고 단 정밀도와 배정 밀도 처리 성능 (GFLOP 측면 에서 )을 비교하면 배정 밀도 성능이 단 정밀도의 절반보다 훨씬 작다는 것을 알 수 있습니다 대부분의 다른 GPU의 성능. 예를 들어 GTX 900 시리즈의 경우 배정 밀도 성능이 단 정밀도 성능의 1/32 인 반면, Wikipedia 기사에 따르면 GTX 700 시리즈의 경우 배정 밀도 성능이 단 정밀도의 1/24 라고합니다. 성능 ( 단일 정밀도 성능의 1/3 에 해당하는 Titan 제외 ).

— 안드레 홀 즈너
소스