예측이나 예측이 아닌 모형 매개 변수 추정 (및 해석)에만 관심이있는 경우 정규화가 도움이 될 수 있습니까?
새 데이터에 대한 좋은 예측을 내리는 것이 목표 인 경우 정규화 / 교차 유효성 검사가 얼마나 유용한 지 잘 알고 있습니다. 그러나 만약 당신이 전통적인 경제학을하고 있고 당신이 관심있는 모든 것을 추정하는 것이라면 ? 교차 유효성 검사도 해당 컨텍스트에서 유용 할 수 있습니까? 와 개념적 어려움 I 투쟁입니다 우리가 할 수 실제로 계산 테스트 데이터에 대한,하지만 우리가 할 수 결코 컴퓨팅 때문에 true 는 정의상 절대 관찰되지 않습니다. (진정한 가 있다고 가정 할 때 , 즉 데이터가 생성 된 모델 군을 알고 있다고 가정하십시오.)
손실이 합니다. 편견-분산 트레이드 오프에 직면하고 있습니까? 따라서 이론적으로는 정규화를 수행하는 것이 좋습니다. 그러나 정규화 매개 변수를 어떻게 선택할 수 있습니까?
나는 계수와 선형 회귀 모델의 간단한 수치 예제를 참조 드리겠습니다 , 연구원의 손실 함수는 예입니다 또는 심지어 입니다. 실제로 이러한 예에서 예상 손실을 개선하기 위해 교차 검증을 어떻게 사용할 수 있습니까?
편집 : DJohnson 은이 질문과 관련된 https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf를 가리 켰습니다 . 저자들은
기술을 학습 기계 ... 예측하는 훈련 방법을 제공 (내가)의 매우 풍부한를 통해 바이어스 분산 트레이드 오프 및 (ii) 검색을 가능하게 만드는 방법을 결정하는 데이터 자체를 사용 변수와 기능적 형태. 그러나 모든 것은 비용이 듭니다 : \ hat {Y}에 맞춰져 있기 때문에 (다른 많은 가정없이) \ hat {\ beta}에 대해 매우 유용한 보장을 제공하지는 않습니다 .
또 다른 관련 논문, DJohnson에 다시 한번 감사 : http://arxiv.org/pdf/1504.01132v3.pdf . 이 백서에서는 위의 문제를 해결했습니다.
인과 관계 추론 문제에 회귀 트리와 같은 머신 러닝 방법을 적용하는 데있어 근본적인 도전은 교차 검증에 기반한 정규화 접근법이 일반적으로 "지상 진실", 즉 실제 결과를 관찰하는 것에 의존한다는 것입니다. 교차 검증 샘플에서. 그러나 우리의 목표가 치료 효과의 평균 제곱 오차를 최소화하는 것이라면, [11]은 "인과 추론의 기본 문제"라고 부르는 것과 마주 치게됩니다. 근거가 있습니다. 우리는 치료의 인과 적 영향에 대한 평균 제곱 오차의 편견없는 추정을 구성하기위한 접근법을 제안함으로써이를 해결한다.