기호 / 수를 최소한으로 사용하여 다중 회귀와 다변량 회귀의 차이점을 설명


답변:


54

'다중'은 단일 결과 (Y 응답)로 모형 (또는 설계 행렬)에 들어가는 예측 변수의 수에 적용되는 반면, '다변량'은 응답 벡터의 행렬을 나타냅니다. 다변량 모델링에 대한 입문을 시작한 저자를 기억할 수는 없지만 그의 다큐멘터리 'R 및 S- 플러스 동반자 다변량 분석' 에서는 Brian Everitt라고 생각합니다 . 이에 대한 자세한 논의를 위해 그의 최신 저서 인 행동 과학을위한 다 변수 모델링 및 다변량 분석을 참조하십시오 .

'variate'의 경우 이것이 알려진 또는 가정 된 분포를 따르는 임의의 변수를 참조하는 일반적인 방법이라고 말할 수 있습니다. 예를 들어 가우스 변형 를 정규 분포에서 도출 된 일련의 관측치 (매개 변수 및 ). 확률 론적으로, 우리는 이것이 수학적으로 기대되는 갖는 X의 임의의 실현 이며 , 그 중 약 95 %가 범위에있을 것으로 예상됩니다 . μ σ 2 μ [ μ - 2 σ ; μ + 2 σ ]Xiμσ2μ[μ2σ;μ+2σ]


1
coursera.org/learn/machine-learning/home/week/2 조차도 다중 회귀 대신 다변량 회귀라는 용어를 사용합니다…
Franck Dernoncourt

일반 선형 모델 (예 : 신경 영상 연구)과 일반 선형 모델에 대해 GLM이라는 용어를 사용하는 사람들과 동일한 혼동이 발생한다고 생각합니다. 결과가 하나 밖에없는 "다변량 로지스틱 회귀"의 많은 사례를 보았으며, 저자가 용어를 명확하게 정의한 한 이것이 중요하지 않다고 생각합니다.
chl

39

다음은 아이디어를 설명하는 밀접하게 관련된 두 가지 예입니다. 예제는 다소 미국 중심적이지만 아이디어는 다른 국가에 외삽 될 수 있습니다.

실시 예 1

대학이 입학 조건을 개선하여 '더 나은'학생들을 입학시키고 자한다고 가정하십시오. 또한, 학생의 학점 평균 (GPA)이 대학이 학생들을위한 성과 지표로 사용하기를 원한다고 가정하십시오. 고등학교 GPA (HSGPA), SAT 점수 (SAT), 성별 등과 같은 몇 가지 기준을 염두에두고 있으며 GPA에 관한 한 이러한 기준 중 어느 것이 중요한지 알고 싶습니다.

솔루션 : 다중 회귀

위의 맥락에서 하나의 종속 변수 (GPA)가 있으며 여러 개의 독립 변수 (HSGPA, SAT, 성별 등)가 있습니다. 독립 변수 중 어느 것이 종속 변수에 적합한 예측 변수인지 확인하려고합니다. 다중 회귀 분석을 사용하여이 평가를 수행합니다.

실시 예 2

위 상황 대신, 입학처에서 시간이 지남에 따라 학생 성적을 추적하고 시간 중 학생 성적을 결정하는 기준 중 하나를 결정하고자한다고 가정합니다. 다시 말해, 학생들이 4 년 동안 GPA 점수를 받았으며 (예 : GPA1, GPA2, GPA3, GPA4) 독립적 변수 중 어느 것이 GPA 점수를 매년 더 잘 예측하는지 알고 싶어합니다. 연도 기준. 입학 사무소는 동일한 독립 변수가 4 년 동안의 성과를 예측하여 그들의 입학 기준 선택이 4 년 동안 지속적으로 학생의 성과를 보장 할 수 있기를 바랍니다.

솔루션 : 다변량 회귀

예 2에는 여러 종속 변수 (예 : GPA1, GPA2, GPA3, GPA4)와 여러 독립 변수가 있습니다. 이러한 상황에서는 다변량 회귀를 사용합니다.


2
항상 예를 ​​들어 질문에 올바르게 대답하는 것이 있습니다 :)
Tjorriemorrie

실제로 이해할 수있는 최상의 답변 100 %
Alvis

21

단순 회귀하나의 종속 변수 ( )와 하나의 독립 변수 ( )와 관련됩니다.yxy=f(x)

다중 회귀 (일명 다중 변수 회귀)하나의 종속 변수 및 여러 개의 독립 변수 와 관련됩니다 .y=f(x1,x2,...,xn)

다변량 회귀 분석다중 종속 변수 및 다중 독립 변수 됩니다. 종속 변수와 독립 변수가 변수의 행렬 (예 : 및 ) 로 배열되는 문제가 발생할 수 있으므로 expression은 로 쓸 수 있습니다 . 여기서 대문자는 행렬을 나타냅니다., Y 11 , Y 12 , . . . X (11) , X (12) , . . . Y = f ( X )y1,y2,...,ym=f(x1,x2,...,xn)y11,y12,...x11,x12,...Y=f(X)

더 읽을 거리 :


나는 그 정의를 이해한다. 그러나 다변량 회귀를 일 변량 회귀 시스템으로 취급하면 어떤 효과가 있습니까?
LKS

@ LKS : 당신은 완전히 별도의 질문으로 그 질문을 할 수 있습니다.
stackoverflowuser2010


Quora의 답변이이 페이지를 언급 ​​했습니까? : P
Habeeb Perwad

4

방정식의 양쪽에있는 변수의 수를 제외하고 여기서 중요한 통찰력 (및 차별화 요소)은 다변량 회귀의 경우 응답 변수 (또는 일반적으로) 상관 관계가 있다는 사실을 활용하는 것입니다. 결과). 예를 들어, 의학적 시험에서 예측 변수는 체중, 연령 및 인종 일 수 있으며 결과 변수는 혈압 및 콜레스테롤입니다. 이론적으로 우리는 두 가지 "다중 회귀"모델, 체중, 나이, 인종에 대한 회귀 혈압, 동일한 요인에 대한 콜레스테롤을 회귀하는 두 번째 모델을 만들 수 있습니다. 그러나 대안으로, 우리는 둘 다 예측하는 단일 다변량 회귀 모델을 만들 수 있습니다세 예측 변수에 기초하여 혈압과 콜레스테롤을 동시에. 다변량 회귀 모델이 환자의 혈압과 콜레스테롤의 상관 관계로부터 더 많은 것을 배울 수있을 정도로 다변량 회귀 모델이 더 우수 할 수 있다는 아이디어가 있습니다.


좋은 지적입니다. R로 다변량 회귀 분석을 수행 할 수 있는지 궁금합니다. Manova를 사용하면 다변량 분산 분석을 수행 할 수 있지만 일 변량 회귀 분석과 같은 계수를 얻을 수는 없습니다.
KarthikS

1

다변량 회귀 분석에는 다른 분산 (또는 분포)을 갖는 하나 이상의 종속 변수가 있습니다. 예측 변수는 하나 이상일 수 있습니다. 따라서 종속 변수 행렬, 즉 다중 분산을 사용하는 다중 회귀 일 수 있습니다. 그러나 다중 회귀라고 할 때 단일 분포 또는 분산을 갖는 하나의 종속 변수 만 의미합니다. 예측 변수는 둘 이상입니다. 다중을 요약하는 것은 둘 이상의 예측 변수를 나타내지 만 다변량은 둘 이상의 종속 변수를 나타냅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.