종종 "중간 데이터"프로젝트라고 할 수있는 작업을 수행하면서 4 개에서 32 개 코어에 이르는 단일 시스템에서 코드 (대부분 Python에서 모델링 및 예측 용)를 병렬화 할 수있었습니다. 이제는 EC2에서 클러스터로 확장하는 것을보고 있는데 (아마도 StarCluster / IPython을 사용하지만 다른 제안에도 열려 있음) 클러스터의 인스턴스와 인스턴스의 코어간에 작업을 분산시키는 방법에 의문이 생겼습니다.
각 인스턴스의 코어와 각 인스턴스에서 병렬 처리하는 것이 실용적입니까? 그렇다면 누구나 코어가 거의없는 많은 인스턴스를 실행하는 것과 비교하여 코어가 많은 인스턴스를 실행하는 장단점을 빠르게 정리할 수 있습니까? 인스턴스 당 코어 대 인스턴스의 비율을 올바르게 선택하는 데 필요한 경험이 있습니까?
내 프로젝트에서 대역폭과 RAM은 사소한 문제이지만 병목 현상과 재조정이 발생했을 때 쉽게 파악할 수 있습니다. 반복적 인 테스트없이 인스턴스에 적합한 코어 조합을 벤치마킹하는 것이 훨씬 더 어려우며 내 프로젝트는 단일 테스트가 모든 상황에 적용하기에는 너무 다양합니다. 미리 감사드립니다.이 구글을 제대로 검색하지 못하면 다른 곳에서 올바른 답변을 알려주십시오.