PostgreSQL에 익숙하지 않기 때문에 이전에는 대규모 배포를 한 적이 없습니다. 그러나 엔터프라이즈 솔루션에 대한 경험이 풍부하며 PostgreSQL을 사용하여 배운 내용 중 일부를 적용하고 싶습니다.
많은 수의 데이터와 트래픽을 처리 할 수있는 크기의 사이트가 있습니다. 인프라는 EC2 인스턴스 및 EBS 볼륨을 사용하여 AWS (Amazon)를 사용하여 구축됩니다.
설계에는 분석 및보고를 처리하기위한 주 트랜잭션 데이터베이스와 데이터웨어 하우스의 두 데이터베이스가 있어야합니다.
주요 거래 데이터베이스
라이브 웹 사이트에 사용되며, 사이트는 여러 노드에 구축되어 동시 사용자를 확장합니다. 주로이 경우 데이터베이스가 읽기 작업 속도가 매우 빠를 것을 요구하며 연간 30 % 성장으로 100GB가 넘는 데이터를 기대합니다. 이 시점에서 우리는 두 개의 EC2 서버를 사용할 계획입니다 ( 필요에 따라 나중에 더 추가 ).
내 질문에 위의 요구 사항에 권장되는 설정은 무엇입니까? 또한 테이블 및 볼륨 파티셔닝을 관리하는 방법이 있습니까? AWS 설정 사용에 대한 권장 사항이 있습니까?
데이터웨어 하우스 데이터베이스
주로 주요 트랜잭션 데이터베이스의 모든 데이터를 시간 차원에서 캡처하는 데 사용됩니다. 따라서 주 데이터베이스에서 삭제 된 레코드도 DWH에서 캡처됩니다. 따라서 데이터가 매우 커지고 성장이 더 커질 것입니다. 필요한 경우 몇 EC2 인스턴스 이상을 사용합니다.
이 경우 권장되는 설정은 무엇입니까? ETL (Constant Writing)로 인해 빠른 쓰기 작업이 필요합니다. PostgreSQL에서 OLAP 큐브를 구축 할 수 있습니까? 그렇다면 누구든지 시도해 보셨습니까?
데이터베이스에 연결
웹 서버는 기본 데이터베이스에 연결하여 쿼리하고 작성합니다. 현재 django를 사용하여 연결을 위해 기본 라이브러리를 사용하는 응용 프로그램을 개발 중입니다. 동일한 기본 방법을 사용하는 것이 좋습니다? 아니면 pgpool을 구성해야합니까?
데이터웨어 하우스 (ETL)
ETL 프로세스를 빌드하여 기본 및로드에서 데이터웨어 하우스로 읽는 권장 방법은 무엇입니까? 어떤 도구? 따라야 할 방법론? PostgreSQL은 ETL 프로세스 구축에 유용한 기능 / 도구를 제공합니까?