높은 는 쓸모 없습니까?


23

통계에서 우리는 선형 회귀를 시작합니다. 일반적으로, 우리는 가 높을수록 좋다는 것을 알고 있지만, 높은 R ^ 2 가 쓸모없는 모델 이되는 시나리오가 있습니까?아르 자형2아르 자형2


8
stats.stackexchange.com/questions/13314 의 답변으로 아이디어를 얻을 수 있습니다.
whuber

2
여기 에 논의 된 상황이 한 가지 있습니다 . 예를 들어,이 예제의 coin2에서 coin1의 결과를 회귀하면 85 %가 넘는 아르 자형2 를 얻을 수 있지만 명백한 관계는 전적으로 허위입니다.
Glen_b-복지 모니카

2
아르 자형2 는 모델이 아닙니다. 따라서 "... 높은 는 쓸모없는 모델에서 나올 것입니다"또는 "... 높은 는 쓸모없는 모델 것 "이 아니라 유사한 것으로 말해야 합니다. 아르 자형2아르 자형2
Richard Hardy

이 링크를 확인하십시오 : R 제곱에 좋은 가치는 무엇입니까
Haitao Du

답변:


43

예. 통계 모델을 평가하는 기준은 현재의 특정 문제에 달려 있으며 의 기계적 기능 이나 통계적 중요성 (중요하지만)이 아닙니다. 관련 질문은 "모델이 데이터를 이해하는 데 도움이됩니까?"입니다.아르 자형2

높은 갖는 무의미한 회귀아르 자형2

  1. 높은 를 얻는 가장 간단한 방법 은 왼쪽 신발에서 오른쪽 신발을 회귀시키는 것과 같습니다. 오른쪽 신발의 크기를 알려주십시오. 왼쪽 신발의 크기를 정확하게 예측할 수 있습니다. 거대한 ! 정말 훌륭한 통계 모델입니다! 그것을 제외하고는 똥을 의미합니다. 회귀의 왼쪽과 오른쪽에 같은 변수를 넣어서 큰 를 얻을 수 있지만이 거대한 회귀는 거의 쓸모가 없습니다.아르 자형2아르 자형2아르 자형2아르 자형2

  2. 오른쪽에 변수를 포함시키는 것이 개념적으로 잘못하는 경우가 있습니다 ( 가 발생하더라도 ). 일부 소수 그룹이 차별을 받고 일자리를 구할 가능성이 적은지 추정하려고한다고 가정 해 봅시다. 소수민 의 구직 신청에 응답 할 가능성이 적은 것이 차별이 발생하는 통로 일 수 있기 때문에 회사가 구직 신청 후 전화를 돌려했는지 여부를 통제 해서는 안됩니다 ! 잘못된 제어를 추가하면 회귀가 무의미해질 수 있습니다.아르 자형2

  3. 더 많은 회귀자를 추가하여 항상 를 늘릴 수 있습니다 ! 내가 좋아 하는 얻을 때까지 오른쪽에 회귀자를 계속 추가 할 수 있습니다 . 노동 수입을 예측하기 위해 교육 통제, 연령 통제, 분기 고정 효과, 우편 번호 고정 효과, 직업 고정 효과, 확고한 고정 효과, 가족 고정 효과, 애완 동물 고정 효과, 머리카락 길이 등을 추가 할 수 있습니다. 이해가되지 않지만 계속 올라갑니다. 모든 것을 회귀로 추가하는 것을 "부엌 싱크대"회귀라고합니다. 높은 얻을 수는 있지만 데이터를 과도하게 적합시킬 수 있습니다. 모델에서 모형 추정에 사용 된 표본을 완벽하게 예측합니다 ( 가 높음)아르 자형2아르 자형2아르 자형2아르 자형2아르 자형2) 그러나 추정 된 모델은 새 데이터에서 끔찍하게 실패합니다.

  4. 다항식 곡선 피팅에 동일한 아이디어가 표시 될 수 있습니다. 임의의 데이터를 주면 200도 다항식을 적용하여 큰 를 얻을 수 있습니다 . 그러나 새로운 데이터에서는 과다 적합으로 인해 추정 다항식이 작동하지 않습니다. 다시 한 번 추정 된 모델에 대해 높은 이지만 추정 된 모델은 쓸모가 없습니다.아르 자형2아르 자형2

  5. 포인트 (3-4)는 우리가 조정 한 이유 인데, 이는 더 많은 회귀 분석기 추가에 대한 약간의 페널티를 제공하지만, 조정 된 는 여전히 데이터를 과적 합하여 여전히 뭉칠 수 있습니다. 또한 음이 나올 수있는 놀랍도록 무의미한 특징이 있습니다.아르 자형2아르 자형2

또한 낮은 가 좋은 예를들 수 있습니다 (예 : 자산 가격 모델의 베타 추정).이 게시물은 이미 꽤 오래 걸렸습니다. 요약하자면, 전체적인 질문은 "문제와 통계에 대해 내가 아는 것을 아는 것이이 모델이 데이터를 이해 / 설명하는 데 도움이됩니까?"와 같은 것이어야합니다. 는이 질문에 답하는 데 도움이되는 도구 일 수 있지만 가 높은 모델 이 항상 더 좋기 때문에 그리 간단하지 않습니다 .아르 자형2아르 자형2아르 자형2


좋은 포인트가 많으면 +1입니다. 나는 어조에 대해 무엇을 말할지 알아 내려고 노력 중입니다 ....
rolando2

2
+1. "항상 증가"하지만 "약간 감소"했음에도 불구하고 약간의 비판적인 행동을 취해야합니다. 종속 변수와 독립적 인 설명 변수를 추가한다고 가정하면 는 동일하게 유지됩니다. : D아르 자형2
usεr11852는 Reinstate Monic이

2
더욱 현학적 인 : 추가 설명 변수가 독립적 인 경우에도, 그것은 일반적으로 여전히 약간 추가 것이다 샘플 부분 상관은 일반적으로 아래에도 독립 음수 일 수 있기 때문에. 아르 자형2
Christoph Hanck

7

"높을수록 좋다"는 R- 제곱의 잘못된 경험 법칙입니다.

돈 모리슨 (Don Morrison)은 몇 년 전에 제로에 접근하는 R- 제곱이 산업에 따라 여전히 실행 가능하고 수익성이있을 수 있음을 보여주는 유명한 기사를 썼습니다. 예를 들어, 천만 가구에 대한 잡지 구독 메일 링에 대한 직접 마케팅 예측 응답에서 낮은 한 자리수의 R- 제곱은 메일 링이 응답의 상위 2 개 또는 3 개의 Decile을 기반으로하는 경우 ROI 기준으로 수익성있는 캠페인을 생성 할 수 있습니다 줄.

또 다른 사회 학자 (이름이 저를 벗어남)는 데이터 유형별로 R- 제곱을 세분화했습니다. 연구 조사에서는 10-20 % 범위의 R- 제곱이 표준 인 반면 비즈니스 데이터의 경우 R- 제곱은 40-60 % 범위입니다. 예상되었다. 그들은 80-90 % 이상의 R- 제곱이 근본적인 회귀 가정을 위반했을 가능성이 있음을 지적했다. 그러나이 저자는 마케팅 믹스, 시계열 데이터 또는 R-를 생산할 수있는 "인과적인"기능 (예 : 가격, 판촉, 장소 및 제품의 클래식 4 "P")을 포함하는 모델에 대한 경험이 없었습니다. 100 %에 가까운 사각형.

즉, 예측 모델에 대한 첫 번째 질문이 항상 "R- 제곱이란 무엇입니까?"라는 기술적으로 문맹 인 사람들을 다루는 데있어 합리적이고 벤치 마크와 같은 합리적 벤치마킹 규칙은 크게 도움이되지 않습니다.


7

다른 답변은 R- 제곱 값을 고정 / 가짜 / 오해의 소지가있는 등 여러 가지 방법에 대한 훌륭한 이론적 설명을 제공합니다. 다음은 항상 나와 함께 붙어있는 실습 데모입니다 r.

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

이는 R 제곱 값> 0.90을 제공 할 수 있습니다. 충분한 회귀자를 추가하면 임의의 값이라도 임의의 값을 "예측"할 수 있습니다.


1
흥미있는 : 대조 set.seed(1)set.seed(2).
PatrickT
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.