부스팅 트리에서 튜닝 매개 변수의 최적 값을 찾는 방법은 무엇입니까?

9

부스팅 트리 모델에는 3 개의 튜닝 매개 변수가 있다는 것을 알고 있습니다.

트리 수 (반복 횟수)
수축 매개 변수
분할 수 (각 구성 요소의 크기)

내 질문은 : 각 튜닝 매개 변수에 대해 최적의 값을 어떻게 찾아야합니까? 그리고 어떤 방법?

수축 매개 변수와 트리 수 매개 변수는 함께 작동합니다. 즉, 수축 매개 변수의 값이 작을수록 트리 수의 값이 높아집니다. 그리고 우리도 이것을 고려해야합니다.

분할 수에 대한 최적의 값을 찾는 방법에 특히 관심이 있습니다. 모델 뒤의 교차 검증 또는 도메인 지식을 기반으로해야합니까?

그리고 이러한 것들이 gbmR 의 패키지에서 어떻게 수행 됩니까?

— mynameisJEFF
소스

6

R 의 캐럿 패키지는이를 위해 만들어졌습니다.

train 함수는 매개 변수 값의 그리드를 취하고 다양한 교차 검증 또는 부트 스트랩을 사용하여 성능을 평가합니다. 패키지 작성자는 Applied predictive modeling 이라는 책을 작성 했으며이 책을 적극 권장합니다. 10 회 교차 검증의 5 회 반복이 책 전체에 사용됩니다.

트리 깊이를 선택하려면 먼저 문제에 대한 주제 지식을 찾아야합니다. 즉, 상호 작용이 예상되지 않는 경우 깊이를 1로 제한하거나 유연한 파라 메트릭 모델 (이해하기가 훨씬 쉬움)을 사용하십시오. 즉, 주제 지식이 종종 매우 제한적이기 때문에 종종 나무 깊이를 조정하는 것을 발견합니다.

나는 gbm 패키지가 나무 깊이와 수축의 고정 값을 위해 나무 수를 조정한다고 생각합니다.

— ErikL
소스

책에 R 코드도 포함되어 있습니까?

— user1769197

R 코드를 포함하는 예제를 사용 했으므로 모델이 계산 방식으로 구현되고 데이터 세트에 적용되는 방식을 이해할 수 있습니다.

— user1769197

1

그렇습니다. 자세한 내용 은이 책의 웹 페이지 applypredictivemodeling.com 을 확인하십시오 .

— ErikL

1

향상된 회귀 트리와 gbm 패키지에는 두 가지 좋은 소스가 있습니다. BRT의 설명과 나무 (수의 최적화를위한 nt), 속도 학습 ( lr)과 나무의 복잡성 ( tc)를 참조 밀어 회귀 나무에 대한 작업 가이드 가 생태에 초점을 맞추고 있지만 난 당신이 BRT에 더 나은 소개를 찾을 수 없습니다 생각 .

gbm 패키지에서 BRT를 구현하려면 생태 모델링을위한 부스트 회귀 트리를 참조하십시오.

간단히 말해, 일반적으로 BRT 모델이 최소 1000 그루의 나무에 맞도록 허용하는 학습률을 선택하는 것이 좋습니다. 따라서이를 달성하려면 낮은 학습률, 아마도 0.001이 필요할 것입니다. 그러나 데이터 크기에 따라 다릅니다 (그림 참조). BRT 작업 안내서의 2와 3을 참조하십시오. 하나의 가능한 방법은 데이터 크기에 따라 BRT에서 다른 모델을 설정하는 것이라고 생각합니다. 예를 들어 다른 lr (0.1, 0.01, 0.001), tc (1, 3, 5, 7, 9, 20)를 다른 가방과 결합하십시오. .fractions (0.5, 0.7, 0.9)이고 가장 낮은 이탈도 또는 가장 높은 ROC 점수에 따라 가장 좋은 것을 선택하십시오. 아마 도움이 될 것입니다.

— 사용자 3624251
소스

1

참고로, BRT_MODEL$self.statistics$correlation[[1]]테스트와 훈련 데이터의 상관 관계는 좋은 테스트 메트릭입니다.

— dez93_2000

나에게 통계적인 실험 설계처럼 들린다. : P

— EngrStudent