상관 관계가 높은 회귀 분석을 사용한 다중 선형 회귀 분석에서 가장 적합한 전략은 무엇입니까? 상관 된 모든 회귀 변수를 곱하는 합법적 인 접근 방법입니까?
상관 관계가 높은 회귀 분석을 사용한 다중 선형 회귀 분석에서 가장 적합한 전략은 무엇입니까? 상관 된 모든 회귀 변수를 곱하는 합법적 인 접근 방법입니까?
답변:
주요 구성 요소는 수학적으로 많은 의미가 있습니다. 그러나 나는이 경우에 약간의 수학적 트릭을 사용하고 내 문제에 대해 생각할 필요가 없기를 조심 합니다.
나는 어떤 종류의 예측 변수가 있는지, 독립 변수가 무엇인지, 내 예측 변수가 상관되는 이유 , 일부 예측 변수가 실제로 동일한 기본 현실을 측정하는지 여부 에 대해 조금 생각하는 것이 좋습니다 . 단일 측정 및 내 예측 변수 중 가장 적합한 것), 내가 분석하고있는 것-추론에 관심이없고 예측에만 관심이 있다면 미래만큼 오랫동안 실제로 물건을 남길 수 있습니다. 예측 변수 값은 과거 값과 유사합니다.
주성분 또는 능형 회귀를 사용하여이 문제를 해결할 수 있습니다. 다른 한편으로, 모수 추정에 문제를 일으킬 정도로 충분히 상관 관계가있는 두 개의 변수가있는 경우 예측 측면에서 많은 손실없이 두 변수 중 하나를 거의 확실하게 제거 할 수 있습니다. 두 변수가 동일한 정보를 가지고 있기 때문입니다. . 물론, 그것은 문제가 두 개의 높은 상관 관계 로 인해 발생하는 경우에만 작동합니다 . 문제가 거의 동일 선상에있는 두 개 이상의 변수를 포함하는 경우 (둘 중 중간 정도의 상관 관계 만있을 수 있음) 다른 방법 중 하나가 필요할 수 있습니다.
Stephan의 답변에서 영감을 얻은 또 다른 생각은 다음과 같습니다 .
상관 된 회귀 분석기 중 일부가 의미있게 관련되어있는 경우 (예 : 언어, 수학 등의 다른 지능 척도) 다음 기술 중 하나를 사용하여 동일한 변수를 측정하는 단일 변수를 만들 수 있습니다.
회귀 자 합계 (회귀자가 전체의 구성 요소 (예 : 구두 IQ + 수학 IQ = 전체 IQ) 인 경우 적합)
회귀 분석기의 평균 (회귀자가 동일한 기초 구조물을 측정하는 경우에 적합합니다 (예 : 왼쪽 신발의 크기, 피트 길이를 측정하기위한 오른쪽 신발의 크기))
요인 분석 (측정 오류를 설명하고 잠재 요인을 추출하기 위해)
그런 다음 모든 상관 회귀자를 삭제하고 위 분석에서 나온 하나의 변수로 대체 할 수 있습니다.
나는 위의 Stephan Kolassa와 거의 같은 말을하려고했습니다 (그래서 그의 대답을 상향 조정했습니다). 때로는 다중 공선 성 이 크기의 측정과 밀접한 관련이있는 광범위한 변수 를 사용하기 때문일 수 있으며 집중적 인 변수를 사용하여 모든 것을 크기 측정으로 나눠서 개선 할 수 있다고 덧붙였습니다. 예를 들어 단위가 국가 인 경우 상황에 따라 인구, 지역 또는 GNP로 나눌 수 있습니다.
아-그리고 원래 질문의 두 번째 부분에 대답하기 위해 : 상관 된 모든 회귀 변수의 곱을 추가하는 것이 어떤 상황인지 생각할 수 없습니다 . 어떻게 도움이 되나요? 무슨 뜻입니까?
나는 이것에 대해 전문가가 아니지만 내 첫 번째 생각은 예측 변수에 대한 주성분 분석을 실행 한 다음 결과 주성분을 사용하여 종속 변수를 예측하는 것입니다.
이것은 구제책이 아니라 올바른 방향으로의 발걸음입니다.