세 파일 시스템에서 ~ 40TB의 데이터로 연구 클러스터를 상속했습니다. 데이터는 거의 15 년으로 늘어 났으며, 연구원들이 서로 다른 이유로 서로 데이터를 복사 한 다음 사본에 매달리면서 상당한 양의 복제물이있을 가능성이 높습니다.
fdupes 및 rmlint와 같은 중복 제거 도구에 대해 알고 있습니다. 그런 큰 데이터 세트에서 작동하는 것을 찾으려고합니다. 모든 데이터를 크롤링하는 데 몇 주 또는 몇 달이 걸리더라도 상관 없습니다. 어쨌든 파일 시스템에서 쉽게 사용할 수 있도록 조절할 것입니다. 그러나 어떻게 든 RAM을 사용하여 매우 효율적이거나 필요한 모든 중간 데이터를 RAM이 아닌 파일에 저장할 수있는 도구를 찾아야합니다. 이 모든 데이터를 하나의 세트로 크롤링하면 RAM (64GB)이 소진 될 것이라고 가정합니다.
900GB 트리에서 fdupes를 실험하고 있습니다. 전체 길이의 25 %이며 RAM 사용량이 전체 시간에 서서히 증가하고 있으며 이제 700MB입니다.
또는 프로세스가 디스크 매핑 RAM을 사용하도록 지시하여 더 많은 가용성을 제공하고 시스템 RAM을 사용하지 않는 방법이 있습니까?
CentOS 6을 실행하고 있습니다.