회귀에 대한 임의의 포리스트가 '진정한 회귀'입니까?


18

임의 포리스트가 회귀에 사용됩니다. 그러나 내가 이해 한 바에 따르면 각 리프에 평균 목표 값을 할당합니다. 각 나무에는 잎이 제한되어 있으므로 회귀 모델에서 목표를 달성 할 수있는 특정 값만 있습니다. 따라서 (단계 함수와 같은) '이산'회귀가 아니라 '연속적'인 선형 회귀와 같지 않습니까?

이것을 올바르게 이해하고 있습니까? 그렇다면 랜덤 포리스트는 회귀에서 어떤 이점을 제공합니까?


답변:


23

랜덤 포레스트는 연속 변수가 재귀 이진 파티셔닝을 통해 기능하는 의사 결정 트리를 기반으로하기 때문에 연속적인 변수를 이산합니다. 그러나 충분한 데이터와 충분한 분할로 인해 작은 단계가 많은 단계 함수는 부드러운 함수와 비슷할 수 있습니다. 따라서 이것은 문제가 될 필요가 없습니다. 단일 예측 변수로 부드러운 반응을 실제로 얻으려면 특정 변수의 부분 효과를 계산하고 부드러운 함수를 맞 춥니 다 (이것은 모델 자체에는 영향을 미치지 않으므로이 단계적 특성을 유지합니다).

임의 포리스트는 일부 응용 프로그램의 표준 회귀 기술보다 몇 가지 장점을 제공합니다. 세 가지만 언급하면 ​​:

  1. 임의로 많은 예측 변수를 사용할 수 있습니다 (데이터 포인트보다 더 많은 예측 변수가 가능합니다)
  2. 사전 지정 없이 복잡한 비선형 형태에 근접 할 수 있습니다.
  3. 사전 사양 없이 예측 간의 복잡한 상호 작용을 캡처 할 수 있습니다 .

그것이 진정한 회귀인지 여부에 관해서는, 이것은 의미 론적입니다. 결국, 조각 별 회귀 도 회귀이지만 부드럽 지 않습니다. 아래 주석에서 지적한 것처럼 범주 형 예측 변수를 사용한 회귀 분석도 마찬가지입니다.


7
또한 범주 형 피처 만있는 회귀도 매끄럽지 않습니다.

3
범주 형 기능이 하나라도있는 회귀가 원활 할 수 있습니까?
데이브

4

불 연속적이지만 고정 된 비트 수를 가진 부동 소수점 수 형태의 출력은 불 연속적입니다. 나무에 100 개의 잎이 있으면 100 개의 다른 숫자를 줄 수 있습니다. 각각 100 개의 나뭇잎이있는 100 개의 다른 나무가있는 경우 임의의 포리스트는 이론적으로 100 ^ 100 개의 다른 값을 가질 수 있으며 200 (10 진) 자릿수 또는 ~ 600 비트를 제공 할 수 있습니다. 물론 겹치는 부분이 있으므로 실제로 100 ^ 100 개의 다른 값을 볼 수는 없습니다. 분포는 극단에 가까울수록 더 이산적인 경향이 있습니다. 각 나무에는 최소한의 잎 (다른 모든 잎보다 작거나 같은 출력을 제공하는 잎)이 있으며 각 나무에서 최소 잎을 얻으면 더 낮아질 수 없습니다. 그래서 숲에 대한 최소한의 전반적인 가치가있을 것입니다. 그 값에서 벗어나면 최소 몇 잎을 제외한 모든 나무가 최소 리프에서 시작하여 최소 값에서 약간의 편차가 발생하여 불연속 점프가 증가합니다. 그러나 극한의 신뢰성 저하는 임의의 숲뿐만 아니라 일반적으로 회귀의 속성입니다.


잎은 훈련 데이터의 모든 값을 저장할 수 있습니다 (따라서 올바른 훈련 데이터를 사용하면 100 잎의 100 나무가 최대 10,000 개의 고유 값을 저장할 수 있음). 그러나 반환 된 값은 각 트리에서 선택한 리프의 평균입니다. 따라서이 값의 정밀도 비트 수는 2 개의 트리 또는 100 개의 트리가 있는지에 관계없이 동일합니다.
대런 쿡

3

답은 회귀 정의에 따라 달라집니다 ( 회귀 모형 정의 및 구분 참조) . 그러나 일반적인 정의 (또는 정의의 일부)는 회귀가 조건부 기대를 모델링한다는 입니다. 그리고 회귀 트리는 실제로 조건부 기대의 추정기로 볼 수 있습니다.

리프 노드에서 해당 리프에 도달하는 표본 관측치의 평균을 예측하고 산술 평균은 예상의 추정치입니다. 트리의 분기 패턴은 컨디셔닝을 나타냅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.