50Gb DEM에 필요한 클러스터 처리 리소스?


9

"임대 목적"을 위해 대학의 컴퓨팅 센터에서 필요한 컴퓨팅 리소스를 지정해야합니다. 나는 무엇을 구해야할지 거의 모른다.

아래 정보를 고려하면 무언가를 제안 할 수 있습니까?

이것은 계산 클러스터입니다. "각 블레이드가 총 2 개의 쿼드 코어 Intel Xeon 2.33 Ghz CPU (16GB의 메모리와 총 80 개의 CPU 및 160GB의 메모리로 구성됨)로 구성된 10 개의 블레이드 서버. 2TB 디스크 시스템 계정. 64 비트 리눅스 "

무손실 압축의 경우 원본 데이터는 하나의 50GB tiff 파일입니다. 어느 시점에서 나는 50GB 크기의 여러 (최대 10 개) 파일로 작업해야합니다.

GDAL, Python 스크립팅 및 C ++ 스크립팅을 사용합니다. 허용되는 경우 Grass GIS 및 Saga GIS와 같은 소프트웨어를 사용합니다. 또한 공간 라이브러리가있는 R 언어. 일반적인 지형 매개 변수를 도출하고 특정 지형지 물 (랜드 폼)을 추출하기 위해 객체 지향 알고리즘을 적용하고 설명 및 모델링 목적으로 통계 분석을 사용하려고합니다.


3
답변에서 정확히 무엇을 기대합니까? 어떤 수량을 요청할 수 있습니까? 블레이드 수, 1 블레이드의 코어 수 등? 단서를 줄 수있는 양식이 있습니까?
blah238

1
안녕. 형식이 없습니다. 관리자가 미리 이러한 질문을하고 있습니다 (알지 못하는 것을 염두에두고). 그러나 나중에 플랫폼에 액세스 할 때 예상되는 메모리 요구 및 처리 시간뿐만 아니라 프로세서 수를 정확하게 지정해야합니다. 따라서 아니오에 대한 아이디어를 갖는 것이 좋습니다. 간단한 행렬 대수 (A * 0.1 + B + C / 50)를 수행 할 수있는 프로세서 및 메모리 양 (예 : 1 시간 미만의 크기로 각 행렬 50Gb 크기) (소프트웨어에서 병렬 컴퓨팅을 허용하는 것으로 간주) ). 감사합니다.
Marco

2
문제를 공격하기위한 전략을 먼저 결정하면 도움이 될 수 있습니다. 파이썬 스크립트 (GDAL 바인딩 사용)가 '즉시 사용'되어 여러 프로세서를 활용할 수 있다고는 생각하지 않습니다. 데이터를 분할하고 병렬 처리를 위해 어떻게 작업 할 계획입니까? 그런 다음 데이터 청크에 대해 몇 가지 테스트를 실행하고 사용하려는 코어 수 등에 따라 총 처리 시간을 추정 할 수 있습니다.
DavidF

고마워 데이빗. 나는 이것에 대해 더 철저히 생각했다. Matlab으로 몇 가지 테스트를 해보겠습니다.
Marco

답변:


2

따라서 아니오에 대한 아이디어를 갖는 것이 좋습니다. 간단한 행렬 대수 (A * 0.1 + B + C / 50)를 수행 할 수있는 프로세서 및 메모리 양

의견에서 DavidF가 언급 한 것처럼 Stategy는 기계를 신경 쓰지 마십시오. 개념적으로 전체 행렬을 의미하므로 50GB 행렬 대수를 전체 행렬로 한 번에 실행할 수 없습니다 (또는 실행하는 것이 좋지 않습니다). 메모리에 쓰여 져야합니다.

빠르고, 매우 쉽고, 효과적인 전략은 gdal_calc 를 사용 하는 것입니다. 래스터를 청크 단위로 읽고 쓰므로 메모리 효율성이 높습니다.

예를 들면 다음과 같습니다. gdal_calc.py -A input.tif -B input2.tif --outfile = result.tif --calc = "(A + B) / 2"

시도해보십시오. 데스크톱에서 처리를 실행할 수 있으며 프로세스 속도를 높이기 위해 더 나은 기계가 필요할 수 있습니다.

Obs : 멀티 코어 프로세서를 활용하려면 여러 gdal_calc 프로세스를 스팸 처리해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.