상관 된 회귀 처리


23

상관 관계가 높은 회귀 분석을 사용한 다중 선형 회귀 분석에서 가장 적합한 전략은 무엇입니까? 상관 된 모든 회귀 변수를 곱하는 합법적 인 접근 방법입니까?


1
@Suncoolsu의 답변이 삭제되었습니다. 그것과 그에 따른 논평은 다중 공선 성과 잘못된 컨디셔닝의 차이점을 명확히했다. 또한 Suncoolsu는 예비 표준화가 다항식 회귀에 어떻게 도움이 될 수 있는지에 대해 언급했습니다. 그것이 다시 나타나면 나는 그것을 투표 할 것이다 ;-).
whuber

@ Ηλίας : 많은 응용 분야에서 제품이 불안정 할 수 있습니다. 개별 회귀 분석에 0이 있으면 많은 영점에 시달릴 수 있습니다. 그것의 절대 값은 강한 양의 비대칭을 가질 가능성이 높으며, 이는 높은 수준의 상승 점을 야기합니다. 외부 데이터, 특히 동시 이상 치를 증폭시켜 레버리지를 더 높일 수 있습니다. 특히 회귀 변수가 이미 원래 변수 (로그 또는 루트 등)를 다시 표현한 경우 해석하기가 다소 어려울 수 있습니다.
whuber

답변:


13

주요 구성 요소는 수학적으로 많은 의미가 있습니다. 그러나 나는이 경우에 약간의 수학적 트릭을 사용하고 내 문제에 대해 생각할 필요가 없기를 조심 합니다.

나는 어떤 종류의 예측 변수가 있는지, 독립 변수가 무엇인지, 내 예측 변수가 상관되는 이유 , 일부 예측 변수가 실제로 동일한 기본 현실을 측정하는지 여부 에 대해 조금 생각하는 것이 좋습니다 . 단일 측정 및 내 예측 변수 중 가장 적합한 것), 내가 분석하고있는 것-추론에 관심이없고 예측에만 관심이 있다면 미래만큼 오랫동안 실제로 물건을 남길 수 있습니다. 예측 변수 값은 과거 값과 유사합니다.


4
+1에 완전히 동의했습니다. 그러나 "수학적 속임수"로서 PCA의 특성은 불공평하다. Srikant가 제안한 것처럼 회귀 그룹을 합산하거나 평균화하는 것이 수용 가능할 것이라는 데 동의하면 (잘 모르겠습니다) PCA도 수용 가능해야하며 일반적으로 적합도를 향상시킵니다. 또한 주요 구성 요소는 예측 변수 그룹이 서로 연관되어 있고 이들이 어떻게 연관되어 있는지에 대한 통찰력을 제공 할 수 있습니다.
whuber

2
@ whuber, 나는 당신의 요점을보고 동의하며, PCA를 비방하고 싶지 않기 때문에 +1합니다. 나는 단지 근본적인 문제 (여기서 누구도 주장하지 않는)를 보지 않고 PCA를 맹목적으로 사용한다는 것은 나에게 나쁜 감정을 남길 것이라는 점을 지적하고 싶었다.
S. Kolassa-Reinstate Monica

11

주성분 또는 능형 회귀를 사용하여이 문제를 해결할 수 있습니다. 다른 한편으로, 모수 추정에 문제를 일으킬 정도로 충분히 상관 관계가있는 두 개의 변수가있는 경우 예측 측면에서 많은 손실없이 두 변수 중 하나를 거의 확실하게 제거 할 수 있습니다. 두 변수가 동일한 정보를 가지고 있기 때문입니다. . 물론, 그것은 문제가 두 개의 높은 상관 관계 로 인해 발생하는 경우에만 작동합니다 . 문제가 거의 동일 선상에있는 두 개 이상의 변수를 포함하는 경우 (둘 중 중간 정도의 상관 관계 만있을 수 있음) 다른 방법 중 하나가 필요할 수 있습니다.


2
(+1) 이제 문제는 OP가 모델에 입력하는 변수의 수를 나타내지 않는다는 것입니다. 변수가 많을 경우 Elasticnet 기준 ( 예 : 조합)을 통해 축소 및 변수 선택을 모두 수행하는 것이 좋습니다. 올가미와 릿지 페널티
chl

3

Stephan의 답변에서 영감을 얻은 또 다른 생각은 다음과 같습니다 .

상관 된 회귀 분석기 중 일부가 의미있게 관련되어있는 경우 (예 : 언어, 수학 등의 다른 지능 척도) 다음 기술 중 하나를 사용하여 동일한 변수를 측정하는 단일 변수를 만들 수 있습니다.

  • 회귀 자 합계 (회귀자가 전체의 구성 요소 (예 : 구두 IQ + 수학 IQ = 전체 IQ) 인 경우 적합)

  • 회귀 분석기의 평균 (회귀자가 동일한 기초 구조물을 측정하는 경우에 적합합니다 (예 : 왼쪽 신발의 크기, 피트 길이를 측정하기위한 오른쪽 신발의 크기))

  • 요인 분석 (측정 오류를 설명하고 잠재 요인을 추출하기 위해)

그런 다음 모든 상관 회귀자를 삭제하고 위 분석에서 나온 하나의 변수로 대체 할 수 있습니다.


1
회귀 분석기가 모두 동일한 척도로 측정 된 경우에 적합합니다. 심리학에서 다양한 하위 척도는 종종 다른 척도로 측정되며 여전히 상관 관계가 있으므로 가중 합계 또는 평균 (여기서는 실제로 동일 함)이 적합합니다. 물론, 최대 분산의 축을 계산하여 PCA가 이러한 종류의 가중치를 제공하는 것으로 볼 수 있습니다.
S. Kolassa-복원 Monica Monica

2

나는 위의 Stephan Kolassa와 거의 같은 말을하려고했습니다 (그래서 그의 대답을 상향 조정했습니다). 때로는 다중 공선 성 이 크기의 측정과 밀접한 관련이있는 광범위한 변수 를 사용하기 때문일 수 있으며 집중적 인 변수를 사용하여 모든 것을 크기 측정으로 나눠서 개선 할 수 있다고 덧붙였습니다. 예를 들어 단위가 국가 인 경우 상황에 따라 인구, 지역 또는 GNP로 나눌 수 있습니다.

아-그리고 원래 질문의 두 번째 부분에 대답하기 위해 : 상관 된 모든 회귀 변수의 곱을 추가하는 것이 어떤 상황인지 생각할 수 없습니다 . 어떻게 도움이 되나요? 무슨 뜻입니까?


내 초기 아이디어는 계정에 회귀 변수의 페어 상호 작용 포획을 추가했다
Ηλίας

쌍별 상호 작용을 고려하는 것이 좋습니다. 그러나 모두가 그런 것은 아닙니다 : 당신은 말이되는 구유를 생각해야합니다!
kjetil b halvorsen

1

나는 이것에 대해 전문가가 아니지만 내 첫 번째 생각은 예측 변수에 대한 주성분 분석을 실행 한 다음 결과 주성분을 사용하여 종속 변수를 예측하는 것입니다.


케이케이


@chl 좋은 지적입니다. 그러나 주성분이 선형 조합이기 때문에 해석 가능한 선형 모형 을 얻기 위해 적합 회귀 모델 (= 한 선형 변환)을 성분에 대한 투영 (= 또 다른 선형 변환)으로 작성하는 것이 간단합니다 (때로는 약간의 고통). 모든 원래 변수를 포함합니다. 이것은 직교 기술과 다소 유사하다. 또한 Srikant의 최신 제안 (회귀 자 합계 또는 평균)은 본질적으로 주요 고유 벡터에 근사하지만 유사한 설명 적 어려움을 유발합니다.
whuber

@ whuber 네, 두 가지 사항에 모두 동의합니다. 나는 PLS 회귀와 CCA를 광범위하게 사용 했으므로이 경우 우리는 양측의 선형 조합 (최대 공분산 또는 상관 기준)을 처리해야합니다. 많은 수의 예측 변수를 사용하면 표준 벡터를 해석하는 것이 고통스럽기 때문에 가장 기여하는 변수 만 살펴 봅니다. 이제 예측 변수가 많지 않다는 것을 상상할 수 있으므로 모든 인수 (@Stephan, @Mike)가 의미가 있습니다.
chl

-1

엑스

엑스나는j에스에이에이아르 자형나는이자형=엑스나는j엑스.j¯에스j

이것은 구제책이 아니라 올바른 방향으로의 발걸음입니다.


8
이와 같은 선형 변환은 상관 계수를 변경하지 않습니다. 표준화의 핵심은 노멀 매트릭스의 컨디셔닝을 개선하는 것입니다.
whuber

1
변수를 표준화해도 독립 변수 간의 상관에는 영향을 미치지 않으며이 문제와 관련하여 생각할 수있는 방식으로 "상관 효과를 줄이지"않습니다.
Brett

2
표준화가 도움이되는 전형적인 예인 @Brett는 다항식 회귀 입니다. 회귀자를 표준화하는 것이 좋습니다. 표준화는 상관 행렬을 변경하지 않지만 var cov 행렬 (이제 correl 행렬 임)이 올바르게 작동하도록합니다 (@whuber에서 행렬의 조건 번호 IMHO를 가리키는 조건 지정이라고 함).
suncoolsu

동의했다. 중심 맞춤은 다항식 또는 교호 작용 항과 같은 고차 항을 입력 할 때 유용합니다. 그것은 여기에 해당되지 않는 것으로 보이며 그렇지 않으면 상관 된 예측 변수의 문제에 도움이되지 않습니다.
Brett

사람들에게 오답을 혼동하고 싶지 않기 때문에 삭제했습니다. 아마 중재자가 다시 제기했을 것입니다.
suncoolsu
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.