«simd» 태그된 질문

12
SSE4.2 및 AVX 명령어로 Tensorflow를 컴파일하는 방법은 무엇입니까?
이것은 Tensorflow가 작동하는지 확인하기 위해 스크립트를 실행하여 수신 한 메시지입니다. I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcublas.so.8.0 locally I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcudnn.so.5 locally I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcufft.so.8.0 locally I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcuda.so.1 locally I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcurand.so.8.0 locally …


8
하드웨어 SIMD를 사용하지 않고 병렬로 1에서 병렬로 64 비트 정수에서 팩형 8 비트 정수 빼기 1 SWAR
64 비트 정수가있는 경우 8 개의 요소가있는 압축 된 8 비트 정수의 배열로 해석됩니다. 1한 요소의 결과가 다른 요소의 결과에 영향을 미치지 않고 오버플로를 처리하는 동안 각 팩형 정수에서 상수를 빼야합니다 . 나는이 코드를 가지고 있으며 작동하지만 각각의 8 비트 정수를 병렬로 빼고 메모리에 액세스하지 않는 솔루션이 필요합니다. x86에서는 psubb8 …
77 c++  c  bit-manipulation  simd  swar 

1
std :: vector를 만드는 현대적인 접근 방식으로 정렬 된 메모리 할당
다음과 같은 질문은 답변이 오래된 그러나, 관련 및 사용자의 코멘트 마크 Glisse은 충분히 논의되지 않을 수 있습니다이 문제에 대한 17 ++ C 이후 새로운 접근 방식이 있습니다 제안합니다. SIMD에 대해 정렬 된 메모리가 올바르게 작동하면서 여전히 모든 데이터에 액세스하려고합니다. Intel에서 유형의 float 벡터를 만들고 __m256크기를 8 배 줄이면 정렬 된 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.