주요 변수에 회귀를 적용하여 출력 변수를 예측하는 방법은 무엇입니까?


9

tutorial1 , link1link2 에서 주요 구성 요소 분석의 기본 사항에 대해 읽었습니다 .

100 변수 (출력 변수 Y 포함)의 데이터 세트가 있고 PCA로 변수를 40으로 줄이고 그 40 변수를 사용하여 변수 Y를 예측하려고합니다.

문제 1 : 주요 구성 요소를 가져 와서 처음 40 개의 구성 요소를 선택한 후 회귀를 적용하면 데이터에 맞는 기능이 생깁니다. 그러나 원래 데이터에서 일부 변수 Y를 예측하는 방법은 무엇입니까? 변수 Y를 예측하려면 입력에 (100-1) 변수가 있으며 원래 100-1 변수 중에서 선택할 40 개의 변수를 어떻게 알 수 있습니까?

문제 2 : PCA를 되돌리고 40 가지 주요 구성 요소에서 데이터를 다시 가져옵니다. 그러나 처음 40 개 구성 요소 만 선택했기 때문에 데이터가 변경되었습니다. 이 데이터에 회귀를 적용하는 것이 의미가 있습니까?

Matlab / Octave를 사용합니다.


PCA를 수행하기 위해 어떤 소프트웨어 또는 프로그램을 사용합니까? 예를 들어 SPSS에서이 분석을 쉽게 수행 할 수 있으며 추출 할 주요 구성 요소 수를 설정하고 출력에서 ​​선택된 구성 요소를 확인할 수 있습니다. 물론이 데이터에 회귀를 적용하면 PCA가 차원 축소에만 사용되므로 의미가 있습니다.
merveceng

1
예측 에만 관심이있는 경우 Hastie, Tibshirani 및 Friedman 은 LASSO가 동일한 기능 (모델의 변수 수를 줄임으로써 예측 능력 향상)을 수행하므로 주성분 회귀 분석보다 LASSO 회귀를 권장하지만 보다 나은. LASSO는 현재 통계 패키지로도 널리 사용 가능합니다.
shadowtalker

@ssdecontrol : Do Hastie et al. 주성분 회귀 분석에 대해 특히 올가미를 권장합니까? PCR은 올가미보다 능선 회귀에 훨씬 더 밀접하게 연결되어 있습니다. 아마도 그들은 PCR을 통한 탄성 그물을 권장하지만 올가미 플러스 릿지입니다.
amoeba

1
@amoeba 방금 가서 온라인 PDF를 확인했습니다. 텍스트가 바뀌 었거나 처음 읽을 때 오해했습니다. 결론은 "lasso가 우수하다"는 것이 아니라 "PCR, PLS 및 능선 회귀가 유사하게 행동하는 경향이있다"는 것입니다. 정직하게 해주셔서 감사합니다!
shadowtalker

답변:


7

원래 99 (100-1) 변수의 하위 집합을 선택하지 않았습니다.

각 주성분은 모든 99 개의 예측 변수 (x 변수, IV, ...)의 선형 조합입니다. 처음 40 개의 주성분을 사용하는 경우 성분 은 99 개의 원래 예측 변수의 함수입니다. (적어도 일반적인 PCA 의 경우 Zou, Hastie 및 Tibshirani 의 SPCA 와 같이 희소 / 정규화 된 버전이 있으므로 적은 수의 변수를 기반으로 구성 요소를 생성합니다.)

양의 상관 관계가있는 두 변수의 간단한 경우를 생각해 보자. 단순성을 위해 동일하게 변한다고 가정한다. 그런 다음 첫 번째 주성분은 두 변수의 합의 (분수) 배수이고 두 번째 변수는 두 변수의 차이의 (분수) 배수입니다. 둘이 동일하게 가변적이지 않은 경우, 첫 번째 주요 구성 요소는 더 가변적 인 구성 요소에 더 많은 가중치를 부여하지만 여전히 둘 다 포함합니다.

따라서 99 개의 x- 변수로 시작하여 각 원래 변수에 해당 가중치를 적용하여 40 개의 주요 구성 요소를 계산합니다. [내 논의에서 NB는 와 가 이미 중앙에 있다고 가정 합니다.]와이엑스

그런 다음 다중 회귀 문제에서와 마찬가지로 40 개의 새로운 변수를 마치 자체 예측 변수 인 것처럼 사용합니다. (실제로 추정값을 얻는 더 효율적인 방법이 있지만 계산 측면을 제쳐두고 기본 아이디어를 다루겠습니다)

두 번째 질문과 관련하여 "PCA의 역전"이 무엇을 의미하는지 명확하지 않습니다.

PC는 원래 변형의 선형 조합입니다. 원래 변이가 에 있고 를 계산 한다고 가정합니다 (여기서 는 이고 는 사용중인 구성 요소에 대한 주요 구성 요소 가중치를 포함하는 행렬 임 ). 견적 회귀 통하여.엑스=엑스엑스×9999×4040와이^=β^PC

그런 다음 say (where ), 원래 예측 변수의 함수로 작성할 수 있습니다. 그것이 '역전'이라는 의미인지는 모르겠지만 와 의 원래 관계를 보는 의미있는 방법 입니다. 물론 원래 X에 대한 회귀를 추정하여 얻은 계수와 같지 않습니다. PCA를 수행하여 정규화합니다. 이 방법으로 각 원본 X에 대한 계수를 얻을 수 있지만 장착 한 구성 요소 수의 df 만 있습니다.와이^=β^PC=엑스β^PC=엑스β^β^=β^PC와이엑스

주성분 회귀 분석 에 대한 Wikipedia도 참조하십시오 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.