회귀 모형의 분산 설명


13

이것은 간단한 설명 일 수 있습니다 (어쨌든 기대하고 있습니다).

회귀 도구 상자를 사용하여 Matlab에서 회귀 분석을 수행했습니다. 그러나 나는 이것을 나타내는 연구를 보았습니다.

"회귀 분석을 사용하여 분산의 60 %를 설명하는 4 가지 음파 특징 만 사용하여 예측 모델을 설정할 수있었습니다."

필요한 경우 기사에 대한 링크는 여기에 있습니다 :

나는 이것이 의미하는 바를 100 % 확신하지 못하지만 간단한 것을 바라고 있습니다. 60 %도 좋은가요? 나는 이것을 찾으려고 노력했지만 '분산'이라는 단어 앞에 항상 백분율이 있기 때문에 답을 찾기가 어렵습니다.

답변:


9

나는 이것을 간단한 용어로 설명하려고 노력할 것이다.

회귀 모형은 종속 변수와 독립 변수 세트의 관계에 중점을 둡니다 . 종속 변수는 하나 이상의 독립 변수를 사용하여 예측하려는 결과입니다.

다음과 같은 모델이 있다고 가정하십시오.

Weight_i = 3.0 + 35 * 높이 _i + ε

분명한 질문 중 하나는이 모델이 얼마나 잘 작동 하는가입니다. 다시 말해서, 사람 의 신장 은 그 사람 의 체중 을 정확하게 예측하거나 설명 하는가?

이 질문에 답하기 전에 먼저 사람들의 체중에서 얼마나 많은 변동이 관찰 되는지 이해해야합니다 . 여기서 중요한 것은 키를 사용하여 다른 사람들의 체중 변동 (변동)을 설명하는 것이므로 중요합니다. 사람들의 키가 체중의 이러한 변화를 설명 할 수 있다면 좋은 모델이됩니다.

분산 은 숫자의 집합 (자신의 평균 값에서) 분산되어 얼마나 멀리 측정으로,이 목적을 위해 사용될 메트릭 좋다.

얼마나 분산 사람의의 : 이것은 우리가 우리의 원래의 질문을 바꿔 데 도움이 무게 그 / 그녀에 의해 설명 될 수 있습니다 높이 ?

여기에서 "% 분산 설명"이 시작됩니다. 그런데 회귀 분석의 경우 상관 계수 R- 제곱과 같습니다 .

위의 모델, 우리는 같은 성명을 발표 할 수있을 경우 : 회귀 분석을 사용하여, 사용하여 예측 모델을 설정하는 것이 가능했다 높이 설명 사람의 분산의 60 %무게를 . "

60 %가 얼마나 좋은가요? 이것에 대해 객관적으로 판단하기는 어렵습니다. 그러나 다른 경쟁 모델 (예 : 사람 의 나이 를 사용하여 자신의 체중을 예측하는 다른 회귀 모델)이있는 경우, 얼마나 많은 차이가 설명되어 있는지에 따라 다른 모델을 비교하고 어떤 모델이 더 나은지 결정할 수 있습니다. (여기에주의해야 할 점이 있습니다. '회귀 해석 및 사용'-Christopher H. Achen http://www.sagepub.in/books/Book450/authors 참조 )


1
그것은 확실히 내 질문의 많은 부분에 대답했습니다. 저자가 왜 이것이 큰 의미를 지니고 있는지에 관해서는 모르겠습니다. 따라서 이것이 R-sqaured 값이고 우리의 예로 되돌아 가면 : 우리는 80 %의 분산을 가진 '나이'에 대한 모델을 사용하고 85의 분산을 가진 '높이'에 대한 모델을 사용했다고 가정하십시오. 사람의 체중을 예측하기 위해 후자의 모델이 더 중요하다고 생각합니까? 책 링크에 감사드립니다. 지난 달에 회귀를 많이 사용할 것이기 때문에 어젯밤에 구입했습니다.
user1574598

1
네, 후자의 모델이 사람의 체중, ceteris paribus를 예측 (또는 설명)하는 능력이 더 우수하다고 결론 내릴 수 있습니다. BTW에서는 이것을 "모델이 80 %의 분산을 가짐"이라고 말했지만 "모델이 분산의 80 %를 설명합니다"라고 말해야합니다.
Vishal

4

저자는 언급하고 있습니다R2

i=1n(y^iy¯)2i=1n(yiy¯)2

yiy^iithy¯R2

i=1n(yiy¯)2=i=1n(y^iy¯)2+i=1n(yiy^i)2,

R2

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.