설명 모델을위한 LASSO : 축소 된 매개 변수입니까?


9

데이터를 이해하는 것이 주요 목표 인 분석을 수행하고 있습니다. 데이터 집합은 교차 검증 (10k)에 충분할 정도로 크고 예측 변수에는 연속 변수와 더미 변수가 모두 포함되며 결과는 연속적입니다. 주요 목표는 모형을보다 쉽게 ​​해석 할 수 있도록 일부 예측 변수를 추출하는 것이 합당한 지 확인하는 것이 었습니다.

질문 :

  1. 내 질문은 "어떻게 vars 결과를 설명하고 그 설명의 '충분한'부분"입니다. 그러나 올가미에 대한 람다 매개 변수를 선택하려면 교차 검증, 즉 예측 유효성을 기준으로 사용합니다. 추론을 할 때 예측 유효성이 내가 묻는 일반적인 질문에 대한 충분한 대리입니까?

  2. LASSO가 8 개의 예측 변수 중 3 개만 유지했다고 가정합니다. 그리고 지금 나는 "이것이 결과에 어떤 영향을 미치는가"라고 스스로에게 묻습니다. 예를 들어, 성별 차이를 발견했습니다. 올가미 수축 후, 계수는 여성이 남성보다 1 포인트 높은 점수를 나타냅니다. 그러나 축소없이 (즉, 실제 데이터 집합에서) 2.5 점 더 높습니다.

    • "실제"성별 효과로 사용할 수있는 것은 무엇입니까? 예측 타당성 만 고려하면 축소 계수가됩니다.
    • 또는 상황에 따라 통계에 정통하지 않은 사람들에 대한 보고서를 작성한다고 가정하십시오. 어떤 계수를 그들에게보고합니까?

1
어떤 모델을보고 계십니까? 선형, 로지스틱, 포아송 등 모델?
TrynnaDoStat

1
그것은 선형 모델이지만, 그것이 그 질문에 차이가 있다고 생각하지 않습니다
mbokulic

답변:


7

모델의 매개 변수를 정확하게 추정하는 것이 목표 인 경우 실제 모델과 얼마나 가까운지는 모델을 선택하는 방법입니다. 교차 검증을 통해 예측 유효성 이렇게하는 한 가지 방법이며 바람직하다 선택하기위한 방법 올가미 회귀한다.λ

이제 어떤 매개 변수 추정치가 "실제 추정치"인지에 대한 질문에 답하기 위해 어떤 매개 변수가 실제 모수 값에 "가장 가까운 지"확인해야합니다. "가장 가까운"것은 바이어스를 최소화하는 모수 추정치를 의미합니까? 그렇다면 최소 제곱 추정기는 선형 회귀 분석에 편향되지 않습니다. 가장 가까운 것은 평균 제곱 오차 (MSE)를 최소화하는 모수 추정치를 의미합니까? 그런 다음 MSE를 최소화하는 추정치를 제공하는 능선 회귀 사양이 있음을 알 수 있습니다 (LASSO와 유사하게, 능선 회귀는 매개 변수 추정값을 0으로 축소하지만 LASSO와 달리 매개 변수 추정치는 0에 도달하지 않음). 비슷하게,λ). 통계학자는 "최상의"추정치가 무엇인지 결정하고 통계에 정통하지 않은 사람들에게 (추정치에 대한 신뢰도를 표시하는 것이 바람직 함)이를보고해야합니다. "가장 좋은"것은 편향된 추정 일 수도 아닐 수도 있습니다.

glmnetR 의 함수는 의 좋은 값을 선택하는 데 아주 효과적 입니다. 요약하면 교차 검증을 통해 를 선택 하고 모수 추정값을보고하는 것은 모수의 "실제"값을 추정하는 데 매우 합리적인 방법입니다.λλ

한계 우도에 의해 를 선택하는 베이지안 LASSO 모델은 일부 사람들이 선호하지만, 당신이 빈번한 LASSO 모델을 수행한다고 가정하면, 아마도 틀릴 것입니다.λ


"편향을 최소화하는 모수 추정치"에서 "바이어스"란 무엇을 의미 했습니까? 다음과 같이 읽으면 나머지를 올바르게 읽습니까? 샘플에서 추정 된 가장 낮은 MSE를 갖는 모델을 선택해야합니다 (예 : 교차 검증)? 희소 계수 행렬을 원하기 때문에 릿지가 문제가되지 않기 때문에 수축 된 올가미 계수를보고하는 것이
좋습니다.

@mbokulic 편향이란 통계적 편향을 의미합니다. 이는 모집단 모수의 값을 초과 / 미달 추정하는 측정 프로세스 경향을 나타냅니다. 내 대답은 그것이 당신이 원하는 것에 달려 있다고 말하는 것입니다. 편견을 원하지 않으면 선형 회귀를 사용하십시오. 편견이 괜찮고 MSE를 최소화하는 것을 선호한다면 LASSO를 사용하여 선택할 때 실사를하십시오 . λ
TrynnaDoStat

흥미 롭습니다. 그런 식으로는 생각하지 않았습니다. 다시 당신을 올바르게 이해했는지 물어봐야합니다. 따라서 선형 회귀는 모집단 계수의 가장 편견없는 추정치를 제공합니다 (원래 질문에서 "2.5 포인트 높음"예). 올가미 또는 능선 regr. 샘플 외부 MSE를 최소화하십시오. 그렇다면 (예측하지 않고) 이해하고 싶다면 선형 회귀가 더 좋아 보이지만 단계적 방법으로 모델을 단순화하고 싶습니다.
mbokulic

여기 에 대한 답변 이 도움이됩니다. 그들은 OLS (선형 회귀)가 인 샘플 성능을 가지고 있지만 올가미는 샘플을 제외한 것임을 제안합니다. 또한 올가미에서 추출한 제한된 예측 변수 집합에 OLS를 사용할 수 있다고 제안합니다. 이것은 OLS 추정치가 약간 초과 될지라도 내 해석 목표에 정확히 맞는 것입니다.
mbokulic
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.