«split» 태그된 질문

8
고정 된 수의 단어가있는 줄로 텍스트 파일 나누기
관련이 있지만 만족스러운 답변은 없습니다 . 큰 텍스트 파일을 500 단어 정도의 청크로 나눌 수 있습니까? 한 줄에 10 ^ 7 개 이상의 단어 가있는 텍스트 파일 ( http://mattmahoney.net/dc/text8.zip ) 을 가져 와서 N 단어가있는 줄로 나눕니다. 내 현재 접근 방식은 작동하지만 상당히 느리고 추악합니다 (쉘 스크립트 사용). i=0 for …

7
큰 디렉토리 트리를 지정된 크기의 청크로 분할합니까?
광 디스크에 백업하려는 디렉토리 트리가 있습니다. 불행히도, 그것은 하나의 디스크 크기를 초과합니다 (약 60GB). 이 트리를 하드 링크 또는 기타가있는 적절한 크기의 덩어리로 나눌 스크립트를 찾고 있습니다 (원본은 그대로 유지). 그런 다음 이러한 바이트 크기의 트리를 백업 프로세스에 공급할 수 있습니다 (PAR2 중복성 추가 등). 멋진 스크립트는 아니지만 이미 완료된 …

4
병렬로 생성 된 세 개의 다른 스트림 중에서 단일 출력 스트림 만들기
형식이 다른 세 종류의 데이터가 있습니다. 각 데이터 유형마다 단일 통합 형식으로 변환하는 Python 스크립트가 있습니다. 이 Python 스크립트는 느리고 CPU에 바인딩되어 있으므로 (멀티 코어 머신의 단일 코어에) 각 데이터 유형마다 하나씩 3 개의 인스턴스를 실행하고 출력을 결합하여 전달하려고합니다 sort. 기본적으로 다음과 같습니다. { ./handle_1.py; ./handle_2.py; ./handle_3.py } | sort …

1
비 압축 파일 추정이 잘못 되었습니까?
큰 (~ 60G) 압축 파일 ( tar.gz)이있었습니다. 나는 split그것을 4 부분 cat으로 나눈 다음 다시 결합했습니다. 그러나 이제 압축되지 않은 파일의 크기를 추정하려고 할 때 파일이 원본보다 작습니까? 이것이 어떻게 가능한지? $ gzip -l myfile.tar.gz compressed uncompressed ratio uncompressed_name 60680003101 3985780736 -1422.4% myfile.tar

7
여러 줄 레코드를 분할하지 않고 큰 텍스트 파일을 효율적으로 분할하는 방법은 무엇입니까?
큰 텍스트 파일이 있습니다 (gz 's ~ 50Gb). 파일은 4*N행이나 N레코드를 포함 합니다. 즉, 모든 레코드는 4 줄로 구성됩니다. 이 파일을 입력 파일의 대략 25 % 크기 인 4 개의 작은 파일로 나누고 싶습니다. 레코드 경계에서 파일을 어떻게 분할 할 수 있습니까? 순진한 접근 방식은 zcat file | wc -l줄 …

4
Split과 함께 GNU Parallel 사용
postgresql 데이터베이스에 꽤 거대한 파일을로드하고 있습니다. 이를 위해 먼저 split파일에서 더 작은 파일 (각각 30Gb)을 얻기 위해 사용한 다음 GNU Paralleland을 사용하여 더 작은 파일을 데이터베이스에로드합니다 psql copy. 문제는 파일을 분할하는 데 약 7 시간이 걸리고 코어 당 파일을로드하기 시작한다는 것입니다. 필요한 것은 split파일 작성이 완료 될 때마다 파일 이름을 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.