랜덤 포레스트 및 부스팅 파라 메트릭 또는 비 파라 메트릭입니까?


13

탁월한 통계 모델링 을 읽음으로써 두 문화 (Breiman 2001) 는 전통적인 통계 모델 (예 : 선형 회귀)과 기계 학습 알고리즘 (예 : 배깅, 랜덤 포레스트, 부스트 트리 ...)의 모든 차이점을 파악할 수 있습니다.

Breiman은 데이터 모델 (모수)이 통계를 통해 알려진 자연스럽고 모방 된 공식 모델에 의해 관측이 생성된다는 가정에 근거하기 때문에 데이터 모델을 비판합니다. 반면, ML 알고리즘은 공식적인 모델을 가정하지 않으며 데이터의 입력 및 출력 변수 간의 연관성을 직접 학습합니다.

Bagging / RF 및 Boosting도 일종의 매개 변수라는 것을 알았습니다. 예를 들어 ntree , RF의 mtry , 학습 속도 , bag fraction 및 Stochastic Gradient Boosted 트리의 트리 복잡도 는 모두 조정 매개 변수 입니다. 또한 데이터를 사용하여 이러한 매개 변수의 최적 값을 찾기 때문에 데이터에서 이러한 매개 변수를 추정합니다.

차이점은 무엇입니까? RF 및 Boosted Trees는 파라 메트릭 모델입니까?

답변:


12

파라 메트릭 모델에는 데이터 분포에 대한 매개 변수 (영향) 또는 가정이 있지만 RF, 신경망 또는 부스팅 트리에는 알고리즘 자체와 관련된 매개 변수가 있지만 데이터 분배에 대한 가정이 필요하지 않거나 데이터를 이론적 분포로 분류 할 필요는 없습니다. . 실제로 거의 모든 알고리즘에는 최적화와 관련된 반복 또는 마진 값과 같은 매개 변수가 있습니다.


5
1) ML 및 파라 메트릭 모델 파라미터는 ML을 기준으로 데이터를 기반으로 튜닝 / 추정되지만, 2) ML에서 파라미터는 알고리즘 이 데이터에 대한 가정을하지 않고 데이터에서 데이터를 학습 하는 방식을 제어합니다. 데이터 생성) 것으로 추정되는기구 제어) 선험적 가정 파라미터 모델 (모델의 파라미터 반면 제조 거의) 보유하지 실제로 비현실적인 가정 많이 (데이터. 이것이 적절한 요약이라고 생각하십니까? 추가 / 변경 하시겠습니까?
Antoine

4
Breiman의 논문에서 모든 것을 요약 한 한 문장은 "알고리즘 모델링이 데이터 모델에서 알고리즘의 속성으로 초점을 이동시키는 것"이라고 생각합니다.
앙투안

1
이를 요약 할 수 있지만 파라 메트릭 모델을 과소 평가하지 마십시오. 많은 문제를 해결하기 위해 필요하고 최적 인 상황이 있습니다. 또한 그들의 가정은 그렇게 비현실적이지 않다. 많은 이론적 분포는 정규에서 이항으로, 대수로, 기하 등으로 많은 것을 설명하는 데 유효합니다. 그것은 하나 또는 다른 것이 아니라 문제를 해결하는 올바른 방법을 선택하는 것입니다.
D.Castro

4
나는 동의한다. 기본 물리 프로세스가 잘 알려진 경우 파라 메트릭 모델이 적합합니다. Breiman은 기본 프로세스를 알 수없는 경우 지식 발견 및 예측을위한 파라 메트릭 모델의 사용을 비판하고 있습니다.
Antoine

1

파라 메트릭 및 비 파라 메트릭의 기준은 이것입니다. 파라미터의 수가 훈련 샘플의 수에 따라 증가하는지 여부입니다. 로지스틱 회귀 및 svm의 경우 피처를 선택할 때 더 많은 훈련 데이터를 추가하여 더 많은 매개 변수를 얻을 수 없습니다. 그러나 RF 등의 경우 트리 수가 변경되지 않더라도 모델의 세부 사항 (트리 깊이와 같은)이 변경됩니다.


그러나 RF 또는 Boosting에서 트리의 깊이를 높이는 것은 매개 변수를 추가하지 않습니다. 여전히 tree.complexity매개 변수가 있고 값만 변경하면됩니다. 또한 RF 및 부스팅에서 포리스트 / 시퀀스의 트리 수는 샘플 크기에 따라 달라집니다
Antoine

내 옵션에서 트리의 깊이가 변경되면 트리에 더 많은 분할이 있으므로 더 많은 매개 변수가 있습니다. 데이터가 변경 될 때 RF 및 부스팅의 트리 수가 변경되는 경우 모델이 선형 모델 인 경우에는 발생하지 않습니다.
Yu Zhang

1

통계적으로 데이터가 매개 변수를 학습하거나 추론하는 경우 모델은 파라 메트릭입니다. 이런 의미에서 나무는 비모수 적입니다. 물론 트리 깊이는 알고리즘의 매개 변수이지만 기본적으로 데이터에서 파생 된 것이 아니라 사용자가 제공해야하는 입력 매개 변수입니다.


따라서 OLS 및 트리 기반 모델을 비 기술적 청중에게 제시해야한다고 가정하면 전자는 파라 메트릭이고 후자는 비 파라 메트릭이라고 말할 수 있습니까?
Tanguy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.