매우 드문 데이터로 잘 작동하는 랜덤 포레스트 구현이 있습니까?


23

매우 드문 데이터로 잘 작동하는 R 임의 포리스트 구현이 있습니까? 나는 수천 또는 수백만의 부울 입력 변수를 가지고 있지만 주어진 예에서 수백 개 정도만 참입니다.

R을 처음 접했고 스파 스 데이터를 처리하기위한 '매트릭스'패키지가 있지만 표준 'randomForest'패키지는이 데이터 유형을 인식하지 못하는 것 같습니다. 중요한 경우 입력 데이터는 R 외부에서 생성되어 가져옵니다.

어떤 충고? Weka, Mahout 또는 다른 패키지를 사용할 수도 있습니다.


내가 알 수있는 한, 희박한 결정 트리를위한 R 패키지는 없습니다. 나는 희소 한 의사 결정 트리에 대한 알고리즘이 있다고 생각합니다 .R로 구현되면 임의의 포리스트를 만드는 데 사용될 수 있습니다.
Zach

2
여기에 좋은 후보는 다음과 같습니다 cs.cornell.edu/~nk/fest . libsvm 형식으로 데이터를 내보낼 수 있으면이 명령 행 프로그램을 사용할 수 있습니다. R 포트를보고 싶습니다 ...
Zach

Zach-연결이 끊어진 것 같습니다.
Benoit_Plante

2
@ cmoibenlepro 링크는 lowrank.net/nikos/fest입니다
seanv507

Link 나를 위해 잘 작동
David Marx

답변:


13

R에는 희소 데이터에 대한 RF 구현이 없습니다. 부분적으로 RF는 이러한 유형의 문제에 매우 적합하지 않기 때문에 배깅 및 최적이 아닌 분할 선택은 제로 전용 영역에서 대부분의 모델 통찰력을 낭비 할 수 있습니다.

일부 커널 방법을 사용하거나 일부 설명자를 사용하여 데이터를 좀 더 무성한 표현으로 변환하는 것이 좋습니다 (또는 일부 차원 축소 방법 사용).


Hack-R의 답변은 xgboost 패키지를 나타내며 희소 행렬로 임의의 포리스트를 완벽하게 수행 할 수 있습니다.
Edgar

7

실제로 그렇습니다 .

그건 xgboost극단적 인 기울기가 강화를 위해 만들어지는. 이것은 현재 많은 사람들을 위해 R에 희소 행렬이있는 모델을 실행하기 위해 선택되는 패키지이며, 위의 링크에서 설명 하는 것처럼 매개 변수를 조정하여 Random Forest에 사용할 수 있습니다 !



-4

R의 기본 사항을 알려주는 Quick-R이라는 블로그가 있습니다.

R은 패키지와 함께 작동합니다. 각 패키지는 다른 것을 할 수 있습니다. "randomForests"라고하는이 패키지가 있습니다.

스파 스 데이터는 어떤 방법을 적용하든 문제가 발생할 수 있습니다. 내 지식으로는 그것은 매우 개방적인 문제이며 일반적으로 데이터 마이닝은 과학보다 예술입니다. 임의 포리스트는 전체적으로 매우 잘 수행되지만 항상 최선의 방법은 아닙니다. 많은 레이어가있는 신경망을 사용해보십시오. 도움이 될 수 있습니다.


4
아니요, randomForest는 드문 데이터로 악명이 높으므로 전체 질문입니다. classwt 매개 변수가 randomForest 전체에서 올바르게 구현되지 않았습니다. 수동 오버 샘플링은 한 가지 방법이지만 OOB 오류를 망칩니다. 그건 그렇고, 패키지는 'randomForests'라고하지 않습니다.
smci

1
이것의 일부는 사실에 대한 답이 아닙니다.
Sycorax는 Reinstate Monica가
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.