R Squared가 LASSO를 사용하여 회귀에 적합하지 않은 이유는 무엇입니까?


12

나는 LASSO를 사용하여 모델이 적합 할 때 R 제곱이 이상적인 척도가 아니라고 여러 곳에서 읽었습니다. 그러나 그 이유 를 정확히 수는 없습니다.

또한 최고의 대안을 추천 해 주시겠습니까?

답변:


19

LASSO를 사용하는 목표는 공변량이 많지 않다는 의미에서 희소 표현 (예측 수량)을 얻는 것 입니다. 모델을 비교하면 많은 공변량이있는 모델을 선호하는 경향이 있습니다. 실제로 결과와 관련이없는 공변량을 추가해도 R 2 는 감소하지 않으며 거의 항상 조금씩 증가시킵니다. LASSO 모델은 최적의 벌점 화 로그 우도를 갖는 모델을 식별합니다 (비벌 제화 로그 우도는 R 2 와 단조 적으로 관련됨 ). LASSO 모델을 다른 유형의 모델과 비교하는 데 더 널리 사용되는 검증 통계는 예를 들어 BIC 또는 교차 검증 된 R 2 입니다.아르 자형2아르 자형2아르 자형2아르 자형2


1
이유를 명확하게 제시하고 대안을 제공하기 위해 +1
Haitao Du

1
큰 답변에 감사드립니다! "LASSO 모델은 최적의 벌점 화 로그 우도 (비벌 제화 로그 우도는 R2와 단조 적으로 관련됨)로 모델을 식별합니다."를 자세히 설명 하시겠습니까? 첫 번째 부분은 (예측과 벌칙을 통해) 오류가 가장 적은 모델을 선택한다는 것을 의미합니까? 그러나 대괄호 안의 비트의 의미가 확실하지 않습니다. 이는 R2가 감소함에 따라 처벌받지 않은 LL이 증가한다는 의미입니까? 또한 교차 검증 된 R2는 완전히 새로운 데이터 셋이어야합니까? 아니면 훈련 데이터를 기반으로 할 수 있습니까?
Dave

3
로그(2π)+1로그()+로그(나는=1아르 자형나는2)1나는=1아르 자형나는2/나는=1와이나는2. 처벌은 간접적으로 오류에 기여하며, 이는 참패를 집행하기 위해 지불하는 가격입니다. 처벌받지 않은 모델은 항상 낮은 (내부) 오류를 갖습니다. 사람들은 일반적으로 동일한 데이터 집합으로 교차 유효성 검사를 수행합니다. 새로운 데이터 세트에서 모델을 테스트하는 것은 완전히 다른 일 ( "교차"부분이 필요하지 않음)이며 충분하지 않습니다.
AdamO

@AdamO 난 당신의 의견에 귀하의 의견을 편집하는 것이 좋은 생각이라고 생각합니다, 그것은 매우 좋습니다.
Matthew Drury

안녕하세요 @AdamO 마지막 후속 질문입니다. 기존 R2가 왜 나쁜 측정인지 이해합니다. 그러나 교차 검증 된 R2 (동일한 데이터 세트 내)가 왜 적합한 지 확실하지 않습니까?
Dave
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.