나는 이것을 간단한 용어로 설명하려고 노력할 것이다.
회귀 모형은 종속 변수와 독립 변수 세트의 관계에 중점을 둡니다 . 종속 변수는 하나 이상의 독립 변수를 사용하여 예측하려는 결과입니다.
다음과 같은 모델이 있다고 가정하십시오.
Weight_i = 3.0 + 35 * 높이 _i + ε
분명한 질문 중 하나는이 모델이 얼마나 잘 작동 하는가입니다. 다시 말해서, 사람 의 신장 은 그 사람 의 체중 을 정확하게 예측하거나 설명 하는가?
이 질문에 답하기 전에 먼저 사람들의 체중에서 얼마나 많은 변동이 관찰 되는지 이해해야합니다 . 여기서 중요한 것은 키를 사용하여 다른 사람들의 체중 변동 (변동)을 설명하는 것이므로 중요합니다. 사람들의 키가 체중의 이러한 변화를 설명 할 수 있다면 좋은 모델이됩니다.
분산 은 숫자의 집합 (자신의 평균 값에서) 분산되어 얼마나 멀리 측정으로,이 목적을 위해 사용될 메트릭 좋다.
얼마나 분산 사람의의 : 이것은 우리가 우리의 원래의 질문을 바꿔 데 도움이 무게 그 / 그녀에 의해 설명 될 수 있습니다 높이 ?
여기에서 "% 분산 설명"이 시작됩니다. 그런데 회귀 분석의 경우 상관 계수 R- 제곱과 같습니다 .
위의 모델, 우리는 같은 성명을 발표 할 수있을 경우 : 회귀 분석을 사용하여, 사용하여 예측 모델을 설정하는 것이 가능했다 높이 설명 사람의 분산의 60 % 에 무게를 . "
60 %가 얼마나 좋은가요? 이것에 대해 객관적으로 판단하기는 어렵습니다. 그러나 다른 경쟁 모델 (예 : 사람 의 나이 를 사용하여 자신의 체중을 예측하는 다른 회귀 모델)이있는 경우, 얼마나 많은 차이가 설명되어 있는지에 따라 다른 모델을 비교하고 어떤 모델이 더 나은지 결정할 수 있습니다. (여기에주의해야 할 점이 있습니다. '회귀 해석 및 사용'-Christopher H. Achen http://www.sagepub.in/books/Book450/authors 참조 )