데이터를 이해하는 것이 주요 목표 인 분석을 수행하고 있습니다. 데이터 집합은 교차 검증 (10k)에 충분할 정도로 크고 예측 변수에는 연속 변수와 더미 변수가 모두 포함되며 결과는 연속적입니다. 주요 목표는 모형을보다 쉽게 해석 할 수 있도록 일부 예측 변수를 추출하는 것이 합당한 지 확인하는 것이 었습니다.
질문 :
내 질문은 "어떻게 vars 결과를 설명하고 그 설명의 '충분한'부분"입니다. 그러나 올가미에 대한 람다 매개 변수를 선택하려면 교차 검증, 즉 예측 유효성을 기준으로 사용합니다. 추론을 할 때 예측 유효성이 내가 묻는 일반적인 질문에 대한 충분한 대리입니까?
LASSO가 8 개의 예측 변수 중 3 개만 유지했다고 가정합니다. 그리고 지금 나는 "이것이 결과에 어떤 영향을 미치는가"라고 스스로에게 묻습니다. 예를 들어, 성별 차이를 발견했습니다. 올가미 수축 후, 계수는 여성이 남성보다 1 포인트 높은 점수를 나타냅니다. 그러나 축소없이 (즉, 실제 데이터 집합에서) 2.5 점 더 높습니다.
- "실제"성별 효과로 사용할 수있는 것은 무엇입니까? 예측 타당성 만 고려하면 축소 계수가됩니다.
- 또는 상황에 따라 통계에 정통하지 않은 사람들에 대한 보고서를 작성한다고 가정하십시오. 어떤 계수를 그들에게보고합니까?