postgresql 데이터베이스에 꽤 거대한 파일을로드하고 있습니다. 이를 위해 먼저 split
파일에서 더 작은 파일 (각각 30Gb)을 얻기 위해 사용한 다음 GNU Parallel
and을 사용하여 더 작은 파일을 데이터베이스에로드합니다 psql copy
.
문제는 파일을 분할하는 데 약 7 시간이 걸리고 코어 당 파일을로드하기 시작한다는 것입니다. 필요한 것은 split
파일 작성이 완료 될 때마다 파일 이름을 std 출력으로 인쇄하여 파이프 할 수 Parallel
있고 파일 split
작성이 완료 되면 파일로드를 시작 하도록 지시 하는 방법입니다. 이 같은:
split -l 50000000 2011.psv carga/2011_ | parallel ./carga_postgres.sh {}
split
매뉴얼 페이지를 읽었으며 아무것도 찾을 수 없습니다. 이 split
도구 나 다른 도구를 사용 하여이 작업을 수행 할 수 있습니까?