통계에서 우리는 선형 회귀를 시작합니다. 일반적으로, 우리는 가 높을수록 좋다는 것을 알고 있지만, 높은 R ^ 2 가 쓸모없는 모델 이되는 시나리오가 있습니까?
통계에서 우리는 선형 회귀를 시작합니다. 일반적으로, 우리는 가 높을수록 좋다는 것을 알고 있지만, 높은 R ^ 2 가 쓸모없는 모델 이되는 시나리오가 있습니까?
답변:
예. 통계 모델을 평가하는 기준은 현재의 특정 문제에 달려 있으며 의 기계적 기능 이나 통계적 중요성 (중요하지만)이 아닙니다. 관련 질문은 "모델이 데이터를 이해하는 데 도움이됩니까?"입니다.
높은 를 얻는 가장 간단한 방법 은 왼쪽 신발에서 오른쪽 신발을 회귀시키는 것과 같습니다. 오른쪽 신발의 크기를 알려주십시오. 왼쪽 신발의 크기를 정확하게 예측할 수 있습니다. 거대한 ! 정말 훌륭한 통계 모델입니다! 그것을 제외하고는 똥을 의미합니다. 회귀의 왼쪽과 오른쪽에 같은 변수를 넣어서 큰 를 얻을 수 있지만이 거대한 회귀는 거의 쓸모가 없습니다.
오른쪽에 변수를 포함시키는 것이 개념적으로 잘못하는 경우가 있습니다 ( 가 발생하더라도 ). 일부 소수 그룹이 차별을 받고 일자리를 구할 가능성이 적은지 추정하려고한다고 가정 해 봅시다. 소수민 의 구직 신청에 응답 할 가능성이 적은 것이 차별이 발생하는 통로 일 수 있기 때문에 회사가 구직 신청 후 전화를 돌려했는지 여부를 통제 해서는 안됩니다 ! 잘못된 제어를 추가하면 회귀가 무의미해질 수 있습니다.
더 많은 회귀자를 추가하여 항상 를 늘릴 수 있습니다 ! 내가 좋아 하는 얻을 때까지 오른쪽에 회귀자를 계속 추가 할 수 있습니다 . 노동 수입을 예측하기 위해 교육 통제, 연령 통제, 분기 고정 효과, 우편 번호 고정 효과, 직업 고정 효과, 확고한 고정 효과, 가족 고정 효과, 애완 동물 고정 효과, 머리카락 길이 등을 추가 할 수 있습니다. 이해가되지 않지만 계속 올라갑니다. 모든 것을 회귀로 추가하는 것을 "부엌 싱크대"회귀라고합니다. 높은 얻을 수는 있지만 데이터를 과도하게 적합시킬 수 있습니다. 모델에서 모형 추정에 사용 된 표본을 완벽하게 예측합니다 ( 가 높음)) 그러나 추정 된 모델은 새 데이터에서 끔찍하게 실패합니다.
다항식 곡선 피팅에 동일한 아이디어가 표시 될 수 있습니다. 임의의 데이터를 주면 200도 다항식을 적용하여 큰 를 얻을 수 있습니다 . 그러나 새로운 데이터에서는 과다 적합으로 인해 추정 다항식이 작동하지 않습니다. 다시 한 번 추정 된 모델에 대해 높은 이지만 추정 된 모델은 쓸모가 없습니다.
포인트 (3-4)는 우리가 조정 한 이유 인데, 이는 더 많은 회귀 분석기 추가에 대한 약간의 페널티를 제공하지만, 조정 된 는 여전히 데이터를 과적 합하여 여전히 뭉칠 수 있습니다. 또한 음이 나올 수있는 놀랍도록 무의미한 특징이 있습니다.
또한 낮은 가 좋은 예를들 수 있습니다 (예 : 자산 가격 모델의 베타 추정).이 게시물은 이미 꽤 오래 걸렸습니다. 요약하자면, 전체적인 질문은 "문제와 통계에 대해 내가 아는 것을 아는 것이이 모델이 데이터를 이해 / 설명하는 데 도움이됩니까?"와 같은 것이어야합니다. 는이 질문에 답하는 데 도움이되는 도구 일 수 있지만 가 높은 모델 이 항상 더 좋기 때문에 그리 간단하지 않습니다 .
"높을수록 좋다"는 R- 제곱의 잘못된 경험 법칙입니다.
돈 모리슨 (Don Morrison)은 몇 년 전에 제로에 접근하는 R- 제곱이 산업에 따라 여전히 실행 가능하고 수익성이있을 수 있음을 보여주는 유명한 기사를 썼습니다. 예를 들어, 천만 가구에 대한 잡지 구독 메일 링에 대한 직접 마케팅 예측 응답에서 낮은 한 자리수의 R- 제곱은 메일 링이 응답의 상위 2 개 또는 3 개의 Decile을 기반으로하는 경우 ROI 기준으로 수익성있는 캠페인을 생성 할 수 있습니다 줄.
또 다른 사회 학자 (이름이 저를 벗어남)는 데이터 유형별로 R- 제곱을 세분화했습니다. 연구 조사에서는 10-20 % 범위의 R- 제곱이 표준 인 반면 비즈니스 데이터의 경우 R- 제곱은 40-60 % 범위입니다. 예상되었다. 그들은 80-90 % 이상의 R- 제곱이 근본적인 회귀 가정을 위반했을 가능성이 있음을 지적했다. 그러나이 저자는 마케팅 믹스, 시계열 데이터 또는 R-를 생산할 수있는 "인과적인"기능 (예 : 가격, 판촉, 장소 및 제품의 클래식 4 "P")을 포함하는 모델에 대한 경험이 없었습니다. 100 %에 가까운 사각형.
즉, 예측 모델에 대한 첫 번째 질문이 항상 "R- 제곱이란 무엇입니까?"라는 기술적으로 문맹 인 사람들을 다루는 데있어 합리적이고 벤치 마크와 같은 합리적 벤치마킹 규칙은 크게 도움이되지 않습니다.