R로 속도를 높이려고합니다. 결국 텍스트 분류를 위해 R 라이브러리를 사용하고 싶습니다. 텍스트 분류를 할 때 R의 확장 성과 관련하여 사람들의 경험이 무엇인지 궁금합니다.
고차원 데이터 (~ 300k 크기)에 빠질 수 있습니다. 특히 분류 알고리즘으로 SVM과 Random Forest를 사용하고 있습니다.
R 라이브러리가 문제 크기에 맞게 확장됩니까?
감사.
편집 1 : 명확히하기 위해 내 데이터 세트에는 1000-3000 개의 행 (아마도 더 많음)과 10 개의 클래스가있을 수 있습니다.
편집 2 : R을 처음 사용하기 때문에 가능한 한 포스터를 더 구체적으로 요구할 것입니다. 예를 들어, 워크 플로우 / 파이프 라인을 제안하는 경우 가능하면 각 단계와 관련된 R 라이브러리를 언급하십시오. 일부 추가 포인터 (예 : 샘플 코드 등)가 케이크에 씌워 질 수 있습니다.
편집 3 : 먼저 의견에 대해 모두 감사합니다. 둘째, 문제에 대해 더 많은 맥락을 제시했을 것입니다. 나는 R을 처음 사용하지만 텍스트 분류에별로 익숙하지 않습니다. tm 패키지를 사용하여 데이터의 일부에서 사전 처리 (stemming, stopword 제거, tf-idf 변환 등)를 이미 수행 했습니다. tm은 약 200 개의 문서에서도 너무 느려서 확장성에 대해 걱정했습니다. 그런 다음 FSelector로 게임을 시작했는데 실제로 느 렸습니다. 그것이 제가 OP를 만든 시점입니다.
편집 4 : 방금 10 개의 수업과 수업 당 ~ 300 건의 교육 문서가 있으며 실제로 전체 교육 세트에서 termXdoc 행렬을 작성하여 차원이 매우 높습니다. 그러나 모든 1-k 급 분류 문제를 일련의 이진 분류 문제로 줄이는 것은 어떻습니까? 그것은 각 k-1 단계에서 교육 문서의 수를 크게 줄이므로 (따라서 차원 성) 그렇지 않습니까? 이 방법이 좋은가요? 정확성과 관련하여 일반적인 멀티 클래스 구현과 어떻게 비교됩니까?