R의 gbm 패키지를 사용하여 일부 큰 데이터 세트로 작업하고 있습니다. 예측 변수 행렬과 응답 벡터가 매우 희박합니다 (즉, 대부분의 항목이 0 임). 나는 여기 에서했던 것처럼이 sparseness를 이용하는 알고리즘을 사용하여 의사 결정 트리를 구축하기를 바랐다 . 이 백서에서와 같이 대부분의 항목에는 가능한 많은 기능 중 일부만 있으므로 데이터가 명시 적으로 다르게 언급되지 않는 한 항목에 지정된 기능이 없다고 가정하여 계산 낭비를 피할 수있었습니다. 내 희망은 이런 종류의 알고리즘을 사용하여 비슷한 속도를 낼 수 있다는 것입니다 (그리고 예측 정확도를 높이기 위해 증폭 알고리즘을 래핑합니다).
그들이 코드를 공개하지 않은 것 같아서,이 경우에 최적화 된 오픈 소스 패키지 나 라이브러리 (어떤 언어)가 있는지 궁금했습니다. 이상적으로는 R의 Matrix
패키지 에서 직접 희소 행렬을 취할 수있는 것을 원 하지만 얻을 수있는 것을 취할 것입니다.
나는 둘러 보았고 이런 종류의 것이 거기에 있어야하는 것처럼 보입니다.
화학자들은이 문제를 많이 겪고있는 것 같습니다 (위의 링크 된 논문은 새로운 약물 화합물을 찾는 법을 배우는 것에 관한 것이 었습니다). 그러나 내가 찾은 구현은 독점적이거나 화학 분석에 매우 특화된 것입니다. 그래도 그중 하나가 용도 변경 될 수 있습니다.
문서 분류는 또한 희소 피쳐 공간에서 학습하는 것이 유용한 영역 인 것 같습니다 (대부분의 문서에는 대부분의 단어가 포함되지 않음). 예를 들어, 이 백서 에는 C4.5 (CART와 유사한 알고리즘)의 스파 스 구현에 대한 기울어 진 참조가 있지만 코드는 없습니다.
메일 링리스트 에 따르면 WEKA는 희소 데이터를 받아 들일 수 있지만, 위에 링크 된 논문의 방법과 달리 WEKA는 CPU 사이클 낭비를 피하는 데 실제로 활용하도록 최적화되지 않았습니다.
미리 감사드립니다!
glmnet
및 e1071::svm
모두 지원 스파 스 Matrix
객체. GAMboost
및 GLMboost
(패키지 GAMboost
) 할 수있다뿐만 아니라.