두 행렬이 모두 CSC 또는 CSR 형식이라는 가정하에 희소 행렬 곱셈 연산에 대해 0이 아닌 숫자를 미리 찾는 빠르고 효율적인 방법이 있는지 궁금합니다.
smmp 패키지에 하나가 있지만 C 또는 C ++로 이미 구현 된 것이 필요하다는 것을 알고 있습니다.
도움을 주시면 감사하겠습니다. 미리 감사드립니다.
두 행렬이 모두 CSC 또는 CSR 형식이라는 가정하에 희소 행렬 곱셈 연산에 대해 0이 아닌 숫자를 미리 찾는 빠르고 효율적인 방법이 있는지 궁금합니다.
smmp 패키지에 하나가 있지만 C 또는 C ++로 이미 구현 된 것이 필요하다는 것을 알고 있습니다.
도움을 주시면 감사하겠습니다. 미리 감사드립니다.
답변:
두 희소성 패턴의 곱을 형성하여 행렬 행렬 곱을 시뮬레이션 할 수 있습니다. 즉, 희소성 패턴 (CSR 형식으로 별도의 배열에 저장 됨)을 0 또는 1을 포함하는 행렬로 간주합니다. 각 항목. 이 시뮬레이션 제품을 수행하는 단지를 형성하도록 요구 하고이 0과 1에 대한 연산으로 실제 행렬 행렬 제품보다 훨씬 빠릅니다. 실제로 두 행렬의 행과 열을 통과하고 적어도 하나의 항목이 있는지 확인하면됩니다. 두 행렬이 모두 0이 아닌 행과 열을 곱합니다. 이것은 실제 작업에서 부동 소수점 곱셈을 실제로 수행하는 것보다 실제로 저렴한 연산입니다-부동 소수점 산술 (비싼)을 수행 할뿐만 아니라 메모리에서 실제 부동 소수점 숫자를 읽을 수도 있습니다 ( 더 비싸지 만 행렬의 0이 아닌 값은 CSR에 별도로 저장되기 때문에 희소성 패턴을 곱할 때 필요하지 않습니다.
실제로 Matlab에서 A * B 용 A와 B 스파 스의 원래 코드를 작성했습니다. 결과를위한 공간의 사전 할당은 실제로 흥미로운 부분이었습니다. 우리는 Godric이 지적한 것을 관찰했습니다. AB에서 0이 아닌 숫자를 아는 것은 AB를 계산하는 것만 큼 비용이 많이 듭니다.
우리는 AB의 크기를 정확하게 추정하는 첫 번째 실용적이고 빠른 방법을 제공 한 에디스 코헨 (Edith Cohen) 논문 이전에 1990 년 경에 스파 스 Matlab의 초기 구현을 수행했습니다. 우리는 열등한 크기 추정기를 구성하고 계산 중 공간이 부족하면 할당을 두 배로 늘리고 부분적으로 계산 된 결과를 복사했습니다.
Matlab에 무엇이 있는지 모르겠습니다.
다른 가능성은 AB를 한 번에 하나의 열로 계산하는 것입니다. 각 열은 스파 스 어큐뮬레이터 (임의의 설명은 스파 스 Matlab 용지 참조)에 임시로 저장 될 수 있으며, 결과 컬럼의 정확한 크기를 유지하기 위해 할당 된 공간이 있습니다. 결과는 메타 데이터로 1이 아닌 길이 numcols (col start, col length)의 2 개의 벡터를 사용하여 분산 압축 압축 스파 스 열 형식 (CSC의 각 열이지만 열간 연속성이 없음)으로 나타납니다. 살펴볼 가치가있는 저장 형식입니다. 그것은 또 다른 강점을 가지고 있습니다-당신은 전체 행렬을 재할 당하지 않고 열을 성장시킬 수 있습니다.
이 논문은 두 희소 행렬의 행렬 곱으로 결과의 크기를 근사화하는 알고리즘을 설명합니다.
희소 행렬 곱셈에서 정확한 개수의 0이 아닌 항목을 찾는 데 따른 문제점은 결과의 각 요소가 두 개의 벡터의 상호 작용에 의존하며 둘 다 0이 아닌 요소를 적어도 포함 할 가능성이 있다는 것입니다. 따라서 숫자를 계산하려면 결과의 모든 요소에 대해 한 쌍의 벡터에 대한 논리 연산을 평가해야합니다. 이것의 문제점은 매트릭스 제품 자체를 계산하는 데 필요한 작업 수와 유사한 많은 작업이 필요하다는 것입니다. 내 의견으로는 원래 행렬의 0이 아닌 요소에서 특정 구조를 악용 할 가능성을 언급했지만 동일한 악용을 사용하여 행렬 곱셈에서 수행되는 작업을 줄일 수도 있습니다.
위의 용지를 사용하여 메모리 요구 사항을 과대 평가하고, 곱셈을 수행 한 다음 할당 된 메모리를 자르거나, 결과 행렬을보다 적절한 크기의 배열로 옮기는 것이 좋습니다. 또한 희소 행렬 제품은 드문 일이 아니며이 문제가 이전에 해결되었음을 거의 보증합니다. 일부 오픈 소스, 희소 행렬 라이브러리에 약간의 파고 들어가면 메모리를 미리 할당하는 데 사용하는 알고리즘으로 연결됩니다.
CSR 또는 CSC의 경우 행렬 요소 배열에 이미 0이 없음을 보장합니까? 이 경우 다음과 비슷한 것을 사용하여 0이 아닌 요소가 몇 개인 지 알아내는 것이 간단합니다.
int nnz = sizeof(My_Array)/sizeof(long int);
그러나 이것이 사실이 아닌 경우 (조금 쉬운 것으로 보인다) 시도 할 수있는 것은 축소 입니다. 행렬 요소의 배열이 매우 큰 경우 이는 0이 아닌 요소 수를 계산하는 가장 효율적인 방법 일 수 있습니다. Thrust (CUDA 라이브러리) 또는 OpenCL (GPU가 필요하지 않음)과 같은 많은 병렬 C / C ++ 라이브러리는 조건부 축소를 지원합니다. 각 요소에 대해 결과를 추가하십시오 Condition(Element)
. 조건을 Element != 0
로 설정하면 0이 아닌 요소의 수를 더합니다. 요소 배열, 행 / 열 인덱스 배열에서 값이 0 인 요소를 제거하고 열 / 행 포인터를 조정할 수도 있습니다.
CSR을 구현하는 가장 간단한 방법은
std::vector< std::map<int, complex<float>> >
매트릭스를 나타냅니다. 이 경우 실제로는 0이 아닌 요소의 수에 대해 걱정하지 않아도됩니다.
std::map< int, complex<float> >::iterator
각 줄에. 베스트 ..