지금까지 상관 테이블을보고 특정 임계 값을 초과하는 변수를 제거하여 데이터 준비 프로세스의 일부로 공선 변수를 제거했습니다. 이 작업을 수행하는 데 더 허용되는 방법이 있습니까? 또한 한 번에 두 변수 사이의 상관 관계 만 보는 것이 이상적이지 않다는 것을 알고 있습니다. VIF와 같은 측정은 여러 변수의 잠재적 상관 관계를 고려합니다. 다중 공선 성을 나타내지 않는 변수 조합을 체계적으로 선택하는 방법은 무엇입니까?
팬더 데이터 프레임 내에 데이터가 있으며 sklearn의 모델을 사용하고 있습니다.
3
부분 최소 제곱 법 회귀 또는 주성분 회귀 분석을 고려할 수 있습니다. 이 중 하나가 지원 될 수 있습니다.
—
spdrnl
내가 참조. 따라서 올바르게 이해하면 PCA를 실행하면 독립적 인 주 구성 요소 집합을 얻을 수 있는데, 주 구성 요소 각각이 다른 구성 요소와 동일 선상에 있지 않기 때문에 모델의 공변량으로 사용할 수 있습니까?
—
orange1
바로 그거죠. 일부 구성 요소는 관련이 없을 수 있습니다. 변수를 삭제하는 것보다 쉽습니다.
—
spdrnl 2016 년
흠, 내 의도는 주로 예측 목적보다는 설명을 위해 모델을 실행하는 것입니다. 주성분을 공변량으로 사용한 모델을 해석하는 방법은 무엇입니까?
—
orange1
이 경우 구성 요소를 해석하는 것이 다소 어두운 기술이므로 도움이되지 않습니다.
—
spdrnl