2
GPU 시스템에서 BLAS / LAPACK 또는 기타 선형 대수 루틴의 가장 빠른 구현은 무엇입니까?
예를 들어, nVidia에는 CUBLAS가있어 속도가 7-14 배 향상됩니다. 기본적으로 이것은 nVidia의 GPU 카드의 이론적 인 처리량에 거의 근접하지 않습니다. GPU에서 선형 대수의 속도를 높이는 데 어떤 어려움이 있으며, 이미 사용 가능한 빠른 선형 대수 라우팅이 있습니까?