종속 변수 가진 선형 회귀 모델이 있다고 가정 합니다. 우리는 찾을 . 이제 우리는 또 다른 회귀를 수행하지만 이번에는 에서 찾습니다 . 어떤 모델이 더 적합한 지 알기 위해 를 모두 비교할 수 없다고 들었습니다 . 왜 그런 겁니까? 나에게 주어진 이유는 우리가 다른 양의 변수 (다른 의존성 변수)를 비교하기 때문입니다. 이것이 충분한 이유인지 확실하지 않습니다.
또한 이것을 공식화하는 방법이 있습니까?
도움을 주시면 감사하겠습니다.
종속 변수 가진 선형 회귀 모델이 있다고 가정 합니다. 우리는 찾을 . 이제 우리는 또 다른 회귀를 수행하지만 이번에는 에서 찾습니다 . 어떤 모델이 더 적합한 지 알기 위해 를 모두 비교할 수 없다고 들었습니다 . 왜 그런 겁니까? 나에게 주어진 이유는 우리가 다른 양의 변수 (다른 의존성 변수)를 비교하기 때문입니다. 이것이 충분한 이유인지 확실하지 않습니다.
또한 이것을 공식화하는 방법이 있습니까?
도움을 주시면 감사하겠습니다.
답변:
"다른 수량"은 설명이 많지 않기 때문에 좋은 질문입니다.
사용에주의해야 할 두 가지 중요한 이유가 있습니다 이러한 모델을 비교하려면 : 너무 조잡하고 ( 실제로 적합도를 평가하지는 않음 ) 적어도 하나의 모델에 부적합합니다. 이 답변은 두 번째 문제를 해결합니다.
모형 잔차의 분산과 반응의 분산을 비교합니다. 분산은 적합치에서 평균 제곱 추가 편차입니다. 따라서 우리는 이해할 수 있습니다 응답의 두 가지 모델을 비교할 때 .
"기본"모델 은
어디 매개 변수 (이론적 평균 반응)이며 평균이 0이고 공통 분산이 각각 독립적 인 무작위 "오류" .
선형 회귀 모델 은 벡터를 소개합니다 설명 변수로 :
수 그리고 벡터 매개 변수 (절편 및 "경사")입니다. 그만큼 다시 제로 평균과 공통 분산을 갖는 독립적 인 랜덤 에러 .
분산 감소 추정 원래 분산과 비교 .
대수를 취하고 최소 제곱을 사용하여 모형에 적합 하면 암시 적으로 형식의 관계를 비교하는 것입니다
형태 중 하나로
이것들은 모델과 같습니다 과 그러나 로그 응답과 함께. 그러나 처음 두 모델과 동일하지 않습니다. 예를 들어 줄 것이다
오류 조건 이제 기본 관계를 곱 하십시오. 결과적으로 응답의 분산은 다음과 같습니다.
차이는 . 그건 모델이 아니야분산이 모두 상수와 같다고 가정합니다. .
일반적 으로 이러한 모델 세트 중 하나만 데이터에 대한 합리적인 설명 일 수 있습니다. 두 번째 세트 적용 과 처음 설정했을 때 과 은 좋은 모델이거나, 두 번째가 좋은 첫 번째 모델은 비선형이 분산 데이터 세트로 작업하기 때문에 선형 회귀에는 적합하지 않습니다. 이러한 상황 중 하나에 해당하는 경우 더 나은 모델이 더 큰 것으로 보일 수 있습니다.. 그러나 두 경우 모두 어떻습니까? 우리는 여전히 더 큰 것을 기대할 수 있습니까 더 나은 모델을 식별 할 수 있도록
어떤 의미에서 적절한 모델이 없다면, 우리는 세 번째 모델을 찾아야하기 때문에 어떤 의미에서 이것은 좋은 질문이 아닙니다. 그러나 우리 이전의 문제는우리가이 결정을 내 리도록 도와주었습니다. 또한 많은 사람들 이 관계 의 형태 에 대해 먼저 생각합니다. 과 회귀 오차의 특성에 대해 염려하지 않고 선형적이고 대수적이며 다른 것입니까? 또는 . 따라서 모델이 관계를 올바르게 갖지만 오류 구조에 대해서는 잘못되거나 그 반대 의 상황을 고려하십시오 .
이러한 모델 (일반적으로 발생)은 지수 관계에 가장 적합한 제곱입니다.
이제 대수 의 선형 함수입니다에서와 같이 , 하지만 오류 용어에서처럼 추가. 그런 경우는 관계가 잘못된 모델을 선택하도록 오도 할 수 있습니다. 과 .
모형의 삽화는 여기 있습니다 . 있다 에 대한 관찰 (1- 벡터 사이에 균등하게 분포 과 ). 왼쪽 패널은 원본을 보여줍니다 오른쪽 패널에는 변환 된 데이터. 빨간색 점선은 실제 기본 관계를 나타내는 반면, 파란색 실선은 최소 제곱합을 나타냅니다. 데이터와 실제 관계는 두 패널에서 동일합니다. 모델과 적합치 만 다릅니다.
오른쪽의 로그 응답에 대한 적합도는 명확합니다. 실제 관계와 거의 일치하며 선형입니다. 왼쪽의 원래 반응에 대한 적합성은 분명히 나빠집니다. 진정한 관계는 지수 적이지만 선형입니다. 불행하게도, 그것은: 에 비해 . 그래서 우리는 믿지 말아야합니다우리를 더 나은 모델로 인도합니다. 그래서 우리는 때에도 적합에 만족해서는 안됩니다 "높음"이며 많은 응용 프로그램에서 실제로 높은 것으로 간주됩니다).
또한,이 모델을 평가하는 더 좋은 방법은 적합도 검정 (오른쪽에 로그 모델의 우월성을 나타냄)과 잔차의 정상성에 대한 진단 플롯 (두 모델의 문제를 강조 표시)을 포함합니다. 이러한 평가는 자연스럽게 가중 최소 제곱에 적합합니다. 또는 직접 모델링 최대 가능성 또는 비선형 최소 제곱 법을 사용하여 적합해야합니다.