교차 검증 (CV)에 기반한 예측 구간


19

교과서와 유튜브 강연에서 나는 부스팅과 같은 반복 모델에 대해 많은 것을 배웠지 만 예측 간격을 도출하는 것에 대해서는 아무것도 보지 못했습니다.

교차 검증은 다음에 사용됩니다.

  • 모델 선택 : 다른 모델을 사용 해보고 가장 적합한 모델을 선택하십시오. 부스팅의 경우 CV를 사용하여 튜닝 파라미터를 선택하십시오.
  • 모델 평가 : 선택한 모델의 성능 추정

모델 평가에는 몇 가지 매개 변수가 중요하며 그 중 하나는 예상 된 예측 오류입니다. 교차 검증은 "통계 학습의 요소"책에 설명되어있는 예측 오류의 적절한 추정치를 제공합니다.

그러나 예측 구간을 구축하기 위해 어떻게 예측 오차를 사용합니까?

예를 들어 집의 가격을 예측하면 200.000 €의 집에 비해 500.000 €의 집에 대한 예측 간격이 더 높아집니다. 교차 검증을 사용하여 이러한 예측 구간을 어떻게 추정합니까?


이것은 좋은 방향으로 나아가는 단계입니다. blog.datadive.net/prediction-intervals-for-random-forests
Kasper

나는 당신이 찾고있는 것이 등각 예측이라고 생각합니다. Shafer 및 Vovk jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf 의 논문을 참조하십시오 .
Alexey Zaytsev

예측 간격이 200k의 집과 비교하여 500k의 집에 대해 더 높을 것이라고 생각하는 이유를 설명해 주시겠습니까? 이것이 샘플 수의 함수입니까? 총 분포에서 표본을 추출했다고 가정 할 수 있습니까?
justanotherbrain

답변:


3

이 질문을 다시 읽은 후 다음과 같은 경계를 낼 수 있습니다.

1δ

이자형[이자형(h)]이자형^(h)+로그1δ2미디엄

미디엄1δ

미디엄이자형[이자형(h)]이자형^(h)

보고하지 마십시오 단지 그들은 단지 점 추정치이기 때문에 교차 유효성 검사 오류도 검사 오류가, 사람들은 일반적으로 의미가 있습니다.


기록을위한 오래된 포스트 :

나는 당신의 질문을 완전히 이해했는지 확신 할 수 없지만 그것을 찌를 것입니다.

먼저, 예측 간격이 일부 분포 가정을 만들기 때문에 모델 선택에 대한 예측 간격을 어떻게 정의할지 잘 모르겠습니다. 대신 집중 불균형을 도출 할 수 있는데, 이는 확률에 따른 분산으로 랜덤 변수를 본질적으로 묶습니다. 농도 불평등은 부스팅에 대한 고급 이론을 포함하여 기계 학습을 통해 사용됩니다. 이 경우 경험적 오류 (테스트 세트의 오류)와 약간의 복잡성 항 및 분산과 관련된 항으로 일반화 오류 (일반적으로 오류, 표시되지 않은 점)를 바인딩하려고합니다.

이제는 매우 일반적인 교차 유효성 검사에 대한 오해를 풀어야합니다. 교차 검증은 고정 표본 크기에 대한 모형의 예상 오차에 대한 편견없는 추정치 만 제공합니다. 이것에 대한 증거는 오직 하나의 프로토콜을 떠나는 경우에만 작동합니다. 차이에 관한 정보를 제공하지 않기 때문에 이것은 실제로 상당히 약합니다. 반면에 교차 검증은 이론적으로 가장 좋은 솔루션 인 구조적 위험 최소화 솔루션에 가까운 모델을 반환합니다. 부록에서 증거를 찾을 수 있습니다 : http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

그렇다면 일반화 경계를 도출하는 방법은 무엇입니까? (일반화 범위는 기본적으로 특정 모델의 일반화 오류에 대한 예측 간격임을 기억하십시오). 음,이 경계는 알고리즘에 따라 다릅니다. 불행히도 머신 러닝 (부스팅 포함)에서 일반적으로 사용되는 모든 알고리즘에 대한 경계를 정하는 교과서가 하나뿐입니다. 이 책은 Mohri, Rostamizadeh 및 Talwalkar의 기계 학습 기초 (2012)입니다. 자료를 다루는 강의 슬라이드는 Mohri의 웹 페이지에서 찾을 수 있습니다 : http://www.cs.nyu.edu/~mohri/ml14/

통계 학습의 요소는 중요하고 다소 유용한 책이지만 매우 엄격하지는 않으며 알고리즘에 관한 많은 중요한 기술적 세부 사항을 생략하고 모든 종류의 일반화 경계를 완전히 생략합니다. 기계 학습의 기초는 기계 학습을위한 가장 포괄적 인 책입니다 (현장에서 최고로 쓰여진 내용을 이해하는 것이 좋습니다). 그러나 교과서는 고급이므로 기술적 인 세부 사항 만주의하십시오.

부스팅에 대한 일반화 범위는 다음과 같습니다 (증거 포함) : http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

나는 이것이 당신의 질문에 대답하기에 충분한 포인터가되기를 바랍니다. 예비 토론은 물론 필요한 모든 세부 사항을 검토하는 데 약 50 페이지가 필요하기 때문에 완전한 답변을 제공하는 데 주저합니다 ...

행운을 빕니다!


따라서 내가 잘 이해하면 전체 분포 (일부 가정을 기반으로)에 대한 모든 Quantile의 일반화 오류에 대한 상한을 제공합니다. 그러나 "교차 유효성 검사 오류나 테스트 오류를보고하지 마십시오"라는 문장을 이해하지 못합니다. 이 두 측정 값이 쓸모 없거나 예측 구간을 찾는 데 쓸모가 없다는 것을 의미합니까?
LouisBBBB

@LouisBBBB CV 오류 및 테스트 오류는 샘플 평균을보고하는 것과 같습니다. 실험을 실행할 때마다 다른 결과를 얻을 수 있기 때문에 신뢰 구간없이 샘플 평균을보고하는 것은 일반적으로 좋지 않습니다. 나는 무의미하다고 말했지만 어쩌면 "무용지물"이 더 낫습니다 ... 점 추정치 (즉, 정의)에 어떤 의미가 있다고 주장 할 수 있습니다. 그러나 일반적으로 포인트 추정치는 "유용한 방법으로"오류 분포를 특성화하지 않는다는 의미에서 "무용지물"입니다. 의사 결정의 맥락에서 "유용하다".
justanotherbrain

당신이하는 말을 이해한다고 생각합니다. 따라서 평균 대신 오차 분포를 분석하는 것이 좋습니다. 그리고 질문으로 돌아 가면 카스퍼는 "포인트 당"예측 간격의 추정치를 원했습니다. 당신의 대답은 예측 간격 길이 (또는 가까운 것)에 대한 전역 상한이었습니다. 맞습니까? 지역 상한선을 얻는 방법을 알고 있습니까?
LouisBBBB

아-설명해 주셔서 감사합니다. @Kasper의 질문을 오해하고 많은 후속 질문이 있다고 생각합니다. 이것을 지적 해 주셔서 감사합니다. 파고 들겠습니다.
justanotherbrain
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.