탁월한 통계 모델링 을 읽음으로써 두 문화 (Breiman 2001) 는 전통적인 통계 모델 (예 : 선형 회귀)과 기계 학습 알고리즘 (예 : 배깅, 랜덤 포레스트, 부스트 트리 ...)의 모든 차이점을 파악할 수 있습니다.
Breiman은 데이터 모델 (모수)이 통계를 통해 알려진 자연스럽고 모방 된 공식 모델에 의해 관측이 생성된다는 가정에 근거하기 때문에 데이터 모델을 비판합니다. 반면, ML 알고리즘은 공식적인 모델을 가정하지 않으며 데이터의 입력 및 출력 변수 간의 연관성을 직접 학습합니다.
Bagging / RF 및 Boosting도 일종의 매개 변수라는 것을 알았습니다. 예를 들어 ntree , RF의 mtry , 학습 속도 , bag fraction 및 Stochastic Gradient Boosted 트리의 트리 복잡도 는 모두 조정 매개 변수 입니다. 또한 데이터를 사용하여 이러한 매개 변수의 최적 값을 찾기 때문에 데이터에서 이러한 매개 변수를 추정합니다.
차이점은 무엇입니까? RF 및 Boosted Trees는 파라 메트릭 모델입니까?