랜덤 포레스트는 원래 훈련 데이터의 부트 스트랩 샘플 (입력 변수와 관측 값의 샘플)을 사용하여 각 트리가 생성되는 의사 결정 트리의 앙상블을 만들어 작동합니다.
선형 회귀 분석에 유사한 프로세스를 적용 할 수 있습니까? 각 k 회귀에 대해 랜덤 부트 스트랩 샘플을 사용하여 k 선형 회귀 모델 생성
모형과 같은 "무작위 회귀"를 작성하지 않는 이유는 무엇입니까?
감사. 내가 근본적으로 오해하는 것이 있다면 알려주십시오.
랜덤 포레스트는 원래 훈련 데이터의 부트 스트랩 샘플 (입력 변수와 관측 값의 샘플)을 사용하여 각 트리가 생성되는 의사 결정 트리의 앙상블을 만들어 작동합니다.
선형 회귀 분석에 유사한 프로세스를 적용 할 수 있습니까? 각 k 회귀에 대해 랜덤 부트 스트랩 샘플을 사용하여 k 선형 회귀 모델 생성
모형과 같은 "무작위 회귀"를 작성하지 않는 이유는 무엇입니까?
감사. 내가 근본적으로 오해하는 것이 있다면 알려주십시오.
답변:
랜덤 포레스트가 구축 된 방법론이 분산 (부트 스트랩 샘플 + 랜덤 서브 스페이스 방법으로 구축 된 카트)을 도입하여 독립적으로 만들기 때문에 본 답변에 부분적으로 동의하지 않습니다. 직교 트리를 가지면 예측의 평균이 (젠슨의 불평등 때문에) 평균 트리의 예측보다 나은 경향이 있습니다 (많은 경우). 이 치료법을 적용 할 때 CART에 특권이 있지만이 방법은 모든 모델에 적용되며 선형 모델도 예외는 아닙니다. 정확히 당신이 찾고있는 R 패키지가 있습니다. 그것은 주제에 대한 그것들과 참고 문헌을 조정하고 해석하는 방법에 대한 훌륭한 튜토리얼을 제공합니다 : Random Generalized Linear Models .
머신 러닝 전문 용어로 @ziggystar의 응답을 넣으려면 부트 스트랩 집계 기술 (예 : 랜덤 포레스트)의 기본 개념은 "무작위"또는 "불안정성"요소가있는 데이터에 많은 저 바이어스, 고 분산 모델을 맞추는 것입니다. 임의 포리스트의 경우 부트 스트랩을 통해 트리의 각 노드를 분할하는 임의의 기능 집합을 선택하여 불안정성을 추가합니다. 이 시끄럽지 만 바이어스가 낮은이 나무를 평균화하면 개별 트리의 높은 분산이 완화됩니다.
회귀 / 분류 트리는 "저 바이어스, 고 분산"모델 인 반면 선형 회귀 모델은 일반적으로 "고 바이어스, 저 분산"과 반대입니다. 따라서 선형 모델에서 종종 직면하는 문제는 편차를 줄이는 것이 아니라 바이어스를 줄이는 것입니다. 부트 스트랩 집계는이 작업을 수행하기위한 것이 아닙니다.
또한 문제는 부트 스트랩이 일반적인 선형 모델에서 충분한 "무작위"또는 "불안정성"을 제공하지 못할 수 있다는 것입니다. 각 리프는 일반적으로 소수의 데이터 포인트 만 보유하므로 회귀 트리는 부트 스트랩 샘플의 무작위성에 더 민감 할 것으로 예상합니다. 또한 각 노드에서 변수의 하위 집합으로 트리를 분할하여 회귀 트리를 확률 적으로 확장 할 수 있습니다. 왜 중요한지 이전 질문을 참조하십시오. 왜 임의 포리스트가 임의의 기능을 기준으로 분할됩니까?
이미 말했듯이, 당신은 확실히 선형 모델에서 부트 스트랩을 사용할 수 있습니다 [LINK] , 이것은 특정 상황에서 매우 도움이 될 수 있습니다. 그러나 동기 부여는 부트 스트랩 집계 기술과 크게 다릅니다.
a_0 + a_1 * x_1 + ... + a_d * x_d
경우 결과 부트 된 평균 선형 함수 (부트 스트랩 집계 후)는 여전히 시작하는 것과 동일한 선형 기능 형태 (예 : '기본 학습자')를 갖습니다.