사용할 수있는 많은 요소가 있으므로 일반적인 지침이 많지 않다고 생각합니다.
설정에서 예상 인덱싱 및 검색로드를 던질 때 어떻게 작동하는지 확인하려면 초기 데이터 세트의 1/5로 소규모 평가를 수행해야합니다. 이를 통해 데이터가 실제로 검색 엔진에서 얼마나 많은 공간을 소비하는지 이해할 수 있습니다. elasticsearch의 경우 소스 json을 저장하는지 여부와 필드 분석 방법 및 저장 여부에 따라 다릅니다.
EC2는 큰 하드웨어 지출없이 탄력적 검색을 평가하는 합리적인 방법이 될 수 있습니다.
elasticsearch와 같은 클러스터 기반 소프트웨어의 경우 클러스터를 더 작게 유지하는 것 사이에 균형이 있습니다. 서버를 잃을 때 더 적은 데이터를 다시 할당해야하기 때문에 큰 클러스터는 좋습니다. 클러스터가 작을수록 에너지 소비가 적고 유지 관리가 더 쉽습니다.
모든 인덱스가 복제되므로 총 인덱스 크기가 약 300GB x 2 인 3,500 만 개의 문서로 클러스터를 실행합니다. 이 기능과 매우 많은 수의 검색을 지원하기 위해 raid10에는 각각 24 개의 코어, 48GB의 RAM 및 10TB의 디스크가있는 1TB의 스토리지를 갖춘 4 개의 노드가 있습니다. 최근 더 많은 헤드 룸을 확보하기 위해 디스크 크기를 늘 렸습니다.
귀하의 경우 더 많은 RAM과 더 많은 디스크를 권장합니다. 해당 검색 량으로 CPU를 절약 할 수 있습니다.
캐시 (사용 된 소프트웨어 및 OS 디스크의 내부)가 제대로 예열되지 않기 때문에 검색 량이 적 으면 실제로 성능이 저하됩니다.
이것이 도움이 되었기를 바랍니다. Paul