회귀 모형이 좋은지 확인하는 방법


10

'glm'을 사용하여 로지스틱 회귀 모델의 정확도를 찾는 한 가지 방법은 AUC 플롯을 찾는 것입니다. 연속 반응 변수 (패밀리 = '가우시안')로 발견 된 회귀 모델에 대해 동일한 내용을 확인하는 방법은 무엇입니까?

회귀 모형이 데이터를 얼마나 잘 적합시키는 지 확인하기 위해 어떤 방법을 사용합니까?


r-squared태그와 태그를 보고 싶을 수도 있습니다 goodness-of-fit.
Macro

2
선형 링크가있는 "Gaussian"패밀리는 LOS (일반 최소 제곱) 회귀입니다. 이러한 적합성을 확인하는 방법은 아마도이 사이트에서 수천 가지 질문으로 논의 될 것입니다 (나는 과장하지 않습니다).
whuber

이 글타래는 관련이 있습니다 : stats.stackexchange.com/q/414349/121522
복원 Monica Monica

답변:


15

" 선형 회귀 모델 진단 " 에 대한 간단한 검색을 시작 하는 것이 좋습니다 . 그러나 여기에 당신이 확인하도록 제안 할 것이 있습니다 :

가정이 만족스럽게 충족되는지 확인하십시오

  • 산점도 또는 성분 + 잔차 그림을 사용하여 독립 예측 변수와 종속 변수 간의 선형 관계를 조사하십시오.

  • 표준화 된 잔차 대 예측 된 값으로 도표를 작성하고 잔차가 매우 높은 극단 점이 없는지 확인하고 잔차의 산포가 예측 된 값을 따라 거의 유사 할뿐만 아니라 잔차 평균의 위와 아래로 크게 균등하게 퍼짐 제로.

  • y 축을 잔차 로 변경할 수도 있습니다 . 이 그림은 불일치 분산을 식별하는 데 도움이됩니다.2

  • 독립성을 가정하도록 연구 설계를 다시 검토하십시오.

  • 가능한 공선 성을 검사하기 위해 VIF (variance inflation factor) 또는 공차 통계를 검색하십시오.

잠재적 영향 지점 검사

  • Cook의 D, DFits 또는 DF Beta와 같은 통계를 확인하여 특정 데이터 포인트가 회귀 결과를 크게 변경하는지 확인하십시오. 자세한 내용은 여기를 참조 하십시오 .

및 조정 된 통계 의 변화를 조사하십시오R 2R2R2

  • 는 회귀 제곱합 대 총 제곱합의 비율이므로 모형에 의해 종속 변수의 변동성 비율이 몇 %인지를 알 수 있습니다.R2
  • 조정 된 를 사용하여 추가 예측 변수를 가져온 추가 제곱합이 실제로 얻을 수있는 자유도의 가치가 있는지 확인할 수 있습니다.R2

필요한 상호 작용 확인

  • 주 독립 예측 변수가있는 경우 독립 효과를 해석하기 전에 다른 독립 변수와 상호 작용하는지 확인하십시오. 조정되지 않은 상태로두면 상호 작용이 추정치를 편향시킬 수 있습니다.

모델을 다른 데이터 세트에 적용하고 성능을 확인하십시오.

  • 회귀 수식을 다른 별도의 데이터에 적용하고 예측이 얼마나 잘되는지 확인할 수도 있습니다. 산점도와 같은 그래프와 관찰 된 값과의 % 차이와 같은 통계는 좋은 시작으로 작용할 수 있습니다.

2
(+1) : 매우 완전한 답변입니다! R을 사용하는 경우 plot.lmPenguin_Knight에서 언급 한 대부분의 진단 플롯을 제공 할 수 있습니다.
Zach

4

회귀 모델 을 교차 검증 하여 새로운 데이터에 대한 일반화 수준을 확인하고 싶습니다. 내가 선택한 측정 항목은 교차 검증 된 데이터의 평균 절대 오차 이지만 루트 평균 제곱 오차 가 더 일반적이고 똑같이 유용합니다.

훈련 데이터에 대해 계산 된 거의 모든 오류 메트릭이 과잉 피팅되기 쉽기 때문에 R2가 모델이 훈련 데이터에 얼마나 잘 맞는지에 대한 좋은 척도는 아닙니다. 훈련 세트에서 R2를 계산해야하는 경우 조정 된 R2를 사용하는 것이 좋습니다 .


1

를 사용 하여 모형이 훈련 데이터에 얼마나 적합한 지 조사 할 수 있습니다 . 모델에서 데이터의 분산 비율을 설명합니다.R2

실제 값과 비교할 때 테스트 세트에서 예측의 RMSE (근무 평균 제곱 오류)를 사용하는 것이 좋습니다. 연속 변수의 예측 오류를보고하는 표준 방법입니다.


1
@Macro 그러나이 질문은 원래 가우스 오류가있는 OLS 회귀에 대한 성능 메트릭을 요구했습니다. 그는 로지스틱 회귀 분석에서 나옵니다.
Erik

@Erik, 고마워요. 어쨌든, 첫 번째 부분과 관련하여, 나는 가 단독으로 "내 회귀 모델이 좋은지 확인"하고 OP의 단어를 사용하는 데 사용될 수 있다고 생각하지 않습니다 . 여전히 높으면서도 대부분의 데이터를 효과적으로 예측하는 데 비참하게 실패 할 수 있습니다. 예를 들어 여기 를 참조 하십시오 -예 (1)에서 예측력은 거의 없지만 는 여전히 높습니다. R 2 R 2R2R2R2
매크로

@ 매크로, 귀하의 의견에 동의하지만 OP를 올바른 방향으로 가리 키기위한 간단한 설명을 목표로하고있었습니다
BGreene

0

나는 음모를 꾸미고에 의해 내 매개 변수 추정의 함수 형태를 확인하는 데 사용하고 비 파라 메트릭 (예를 들어, 커널 회귀) 또는 반 파라 메트릭 추정을하고 파라 메트릭 장착 곡선과 비교. 나는 이것이 첫 번째 단계에서 상호 작용 용어 또는 고차 용어를 포함하는 것보다 더 빠르거나 아마도 더 통찰력이 있다고 생각합니다.

R 패키지 np는 많은 비모수 적 및 반모 수적 기능을 제공하며 비 네트는 잘 작성되어 있습니다. http://cran.r-project.org/web/packages/np/vignettes/np.pdf

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.