저는 5 년 가까이 SAS를 전문적으로 사용해 왔습니다. 랩톱에 설치했으며 1,000-2,000 개의 변수와 수십만 개의 관측치로 데이터 세트를 자주 분석해야합니다.
비슷한 크기의 데이터 세트에서 분석을 수행 할 수있는 SAS의 대안을 찾고있었습니다. 이런 상황에서 다른 사람들이 무엇을 사용하는지 궁금합니다. 이것은 오늘날 사용되는 방식에서 "빅 데이터"가 아닙니다. 또한 내 데이터 세트가 메모리에 들어갈만큼 작지 않습니다. 하드 드라이브에 저장된 데이터에 알고리즘을 적용 할 수있는 솔루션이 필요합니다. 이것들은 내가 쓸모없는 것으로 조사한 것들입니다.
- R-BigMemory는 메모리에서 저장된 매트릭스를 작성할 수 있지만 요소는 동일한 모드 여야합니다. 나는 문자와 숫자로 거의 50/50 분할 된 데이터로 작업합니다. FF 패키지는 필요한 것에 더 가까워 지지만 어떤 절차가 호환되는지 이해하지 못합니다. 지원이 다소 제한적이라고 생각합니다.
- 팬더-R에 대한 Pythonic 대안에 매우 흥분했지만 모든 데이터를 메모리에 보관해야합니다.
- 혁명 R-이것은 약간의 약속을 보여줍니다. 가정용 컴퓨터에 사본이 있으며 (카글에 가입하면 무료 임) 아직 SAS의 대안으로 테스트하지 않았습니다. SAS 대안으로 Revolution R에 대한 의견은 대단히 높이 평가됩니다.
감사
업데이트 1
사람들이 성공적으로 사용한 실제적이고 실용적인 솔루션을 찾고 있다고 덧붙여 편집. 대부분의 경우 SAS를 사용하면 메모리 제약에 대해 1 비트 걱정할 필요없이 큰 파일을 처리 할 수 있습니다. 그러나 SAS는 구현되어 메모리 관리를 사용자에게 투명하게 만드는 방법을 알아 냈습니다. 그러나 SAS를 제 업무에 사용했던 것은 마음이 무겁습니다. 필자는 데이터의 위치에 대해 너무 열심히 생각할 필요없이 "대형"데이터를 처리 할 수있는 FOSS 대안을 좋아할 것입니다. 특정 시간 (메모리 또는 디스크).
내가 찾은 가장 가까운 것은 R의 FF 패키지와 Blaze 라는 Python의 지평선에있는 것입니다 . 그러나 이러한 문제는 수년 동안 존재 해 왔기 때문에 분석가는 그 동안 무엇을하고 있습니까? 메모리 제한과 동일한 문제를 어떻게 처리합니까? 제공되는 솔루션의 대부분은 다음과 같습니다.
- 더 많은 RAM 확보-이것은 좋은 해결책이 아닙니다. RAM을 초과 할 수 있지만 여전히 하드 드라이브에 적합한 데이터 세트를 쉽게 찾을 수 있습니다. 또한 작업 흐름은 탐색 적 데이터 분석 중에 생성 된 모든 구조를 수용해야합니다.
- 데이터 하위 집합-탐색에 적합하지만 결과 및보고를 마무리하는 데는 적합하지 않습니다. 결국, 서브셋에서 개발 된 프로세스는 전체 데이터 세트 (내 경우에는 어쨌든)에 적용되어야합니다.
- 데이터 청크-실제로이 워크 플로를 구현하는 사람들로부터 더 많은 정보를 얻고 싶습니다. 어떻게 되나요? 어떤 도구로? 사용자에게 투명한 방식으로 수행 할 수 있습니까? (즉, 일부 온 디스크 데이터 구조를 작성하고 프레임 워크는 후드 아래의 청크를 처리합니다).