임의의 포리스트를 사용하여 카운트 데이터 예측


12

카운트 데이터를 적절히 예측하도록 랜덤 포레스트를 훈련시킬 수 있습니까? 이것은 어떻게 진행됩니까? 나는 광범위한 값을 가지므로 분류가 실제로 의미가 없습니다. 회귀를 사용하면 결과를 간단히 자르겠습니까? 나는 여기에서 상당히 길을 잃었다. 어떤 아이디어?


1
포아송 회귀를 사용할 수 없습니까?
RJ-

비모수 적 인 것을 사용하고 싶었습니다. 포아송 회귀 가정을 실제로 기억하지는 않지만 그중 하나는 관측치가 독립적이며 여기에서 깊이 이행되지 않는다는 것입니다. 이것이 나에게 많은 영향을 줄 수 있습니까?
JEquihua

2
RF 회귀 분석을 시도 했습니까 (로그에있을 수도 있음)? 그것은 충분히 잘 작동 할 수 있습니다.

1
하지 마십시오. 그러나 그것은 나의 첫 번째 강인이었습니다. 로그 또는 제곱근 변환. 그러나 누군가 이것에 대한 경험이 있는지 알고 싶었습니다.
JEquihua

응답, 로그 (응답) 및 sqrt (응답)에 대한 회귀를 시도했지만 아무런 효과가 없었습니다. 문제는 내 독립 변수가 응답을 설명하는 것 이상이라고 생각합니다. 오 잘
JEquihua

답변:


8

mobForest카운트 데이터에 대한 실제 임의 포리스트에 맞는 R 패키지 가 있습니다. 그것은 기반으로 mod()에서 (모델 기반의 재귀 분할) party패키지로 제공된다. family인수가로 지정 되면 포아송 회귀를 수행합니다 poisson(). 패키지는 더 이상 CRAN 저장소에 없지만 이전에 사용 가능한 버전은 아카이브에서 얻을 수 있습니다.

임의 포리스트 / 배깅으로 제한되지 않은 경우 카운트 데이터에 부스팅 버전도 제공됩니다. 즉, gbm(일반화 된 부스트 회귀 모델). 포아송 모델에도 적합합니다.


5

몇 가지 가능성이 있습니다.

  • 응답을 임의의 몇 가지 범주로 묶고 분류 트리를 사용할 수 있습니다.
  • 카운트가 일반적으로 매우 낮은 0, 0, 0, 1, 0, 3, 0, 2 인 경우 각 정수 카운트를 클래스로 취급하고 분류 트리를 사용할 수 있습니다 (아마도 귀하의 경우는 아님). 이 경우 연속 회귀 분석과 달리 유형 분산 설명 유형 메트릭을 얻는 것이 더 어려워집니다.
  • 카운트가 일반적으로 낮지 않고 많은 변형이있는 경우 회귀 트리를 사용하면됩니다. 예를 들어, 선형 회귀 분석에 포아송 회귀 분석을 사용하는 것은 좋은 선형 예측 변수를 얻는 데만 도움이됩니다. 랜덤 포레스트에서 좋은 예측력을 얻지 못하면 카운트 데이터를 구체적으로 수용하는 더 멋진 모델이 당신에게 많은 도움이 될 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.