시간이 지남에 따라 인덱스 펀드의 동작을 예측하기 위해 다중 회귀 분석에 사용할 수있는 수백 가지 재무 변수 값으로 구성된 큰 데이터 세트가 있습니다. 가능한 많은 예측력을 유지하면서 변수 수를 10 정도로 줄이려고합니다. 추가 : 감소 된 변수 세트는 원래 변수의 경제적 의미를 유지하기 위해 원래 변수 세트의 서브 세트 여야합니다. 따라서 예를 들어 선형 변수 또는 원래 변수의 집계로 끝나서는 안됩니다.
이 작업을 수행하는 방법에 대한 일부 (아마도 순진한) 생각 :
- 각 변수로 간단한 선형 회귀를 수행하고 가장 큰 값을 가진 10을 선택하십시오 . 물론 10 개의 최고의 개별 변수가 10 개의 최고의 그룹이 될 것이라는 보장은 없습니다.
- 주성분 분석을 수행하고 처음 몇 개의 주축과 가장 큰 연관성을 갖는 10 개의 원래 변수를 찾으십시오.
변수가 실제로 중첩되어 있지 않기 때문에 계층 적 회귀를 수행 할 수 없다고 생각합니다. 조합이 너무 많기 때문에 10 개의 변수 조합을 모두 시도하는 것은 계산 상 불가능합니다.
다중 회귀 분석에서 변수 수를 줄이는이 문제를 해결하기위한 표준 접근 방법이 있습니까?
이것이 표준 접근법이있을 정도로 일반적인 문제 일 것 같습니다.
매우 유용한 답변은 표준 방법을 언급 할뿐만 아니라 작동 방법 및 이유에 대한 개요를 제공합니다. 또는 표준 접근 방식이 하나가 아니라 다른 강점과 약점을 가진 여러 방법이 있다면 장단점을 논의하는 것이 매우 도움이 될 것입니다.
아래 whuber의 의견은 마지막 단락의 요청이 너무 광범위하다는 것을 나타냅니다. 대신, 나는 주요한 접근법의 목록을 아마도 좋은 답변으로 받아 들일 것이다. 일단 용어가 있으면 각각의 세부 사항을 파헤칠 수 있습니다.