답변:
GNU Scientific Library의 구현 을 살펴 보셨습니까 ? 소스 코드를 충분히 읽을 수 있고 루틴이 잘 문서화되어 있습니다.
BLAS의 주목할만한 C 언어 구현은 ATLAS입니다. 유용한 기능 중 :
최고 성능 (Intel Xeon Phi 60 코어에서 최대 85 %보다 높음)뿐만 아니라 가장 아름답게 작성된 고성능 구현을 위해 BLIS를 살펴보십시오.
현재 dgemm을 다른 수준의 병렬화 (명령 수준, OpenMP, MPI)로 이끄는 예제로 사용하는 "LAFF-On High-Performance Computing"(대량 오픈 온라인 과정)을 진행하고 있습니다.
이것은 BLAS에 대한 참조 구현이 아니지만 성능을 위해 BLAS를 코딩하는 방법에 대한 참조입니다. 정보를 유지하려면 www.ulaff.net을 방문하십시오 .