Daniel Wilks (2011)는 왜 주요 구성 요소 회귀 분석이 "편향 될 것"이라고 말합니까?


13

에서 대기 과학 통계 방법 예측 인자 중 매우 강한 intercorrelations (제 3 판, 페이지 559-560)이있는 경우, 다니엘 윌크스 노트는 다중 선형 회귀 분석 문제가 발생할 수 :

다중 선형 회귀 분석에서 발생할 수있는 병리학은 강력한 상호 상관 관계가있는 예측 변수 세트가 불안정한 회귀 관계 계산을 초래할 수 있다는 것입니다.

(...)

그런 다음 주성분 회귀 분석을 소개합니다.

이 문제를 해결하는 방법은 먼저 예측 변수를 주요 구성 요소로 변환하는 것입니다. 상관 관계는 0입니다.

여태까지는 그런대로 잘됐다. 그러나 다음으로, 그는 설명하지 않는 진술을합니다 (또는 적어도 이해하기에는 충분하지 않습니다).

모든 주성분이 주성분 회귀에 유지되면 전체 예측 변수 집합에 맞는 기존 최소 제곱보다 아무것도 얻지 못합니다.

(..) 및 :

원래 예측 변수를 사용하여 주성분 회귀를 다시 표현할 수 있지만 결과에는 하나 또는 소수의 주성분 예측기가 사용 된 경우에도 일반적으로 모든 원래 예측 변수가 포함됩니다. 이 재구성 된 회귀는 종종 분산이 훨씬 작아서 전체적으로 MSE가 더 작아 지더라도 편향됩니다.

나는이 두 가지 점을 이해하지 못한다.

물론 모든 주요 구성 요소가 유지되면 원래 공간에서 예측 변수를 사용할 때와 동일한 정보를 사용합니다. 그러나 주성분 공간에서 작업함으로써 상호 상관 문제는 제거됩니다. 우리는 여전히 과적 합을 할 수 있지만 이것이 유일한 문제입니까? 왜 아무것도 얻지 못합니까?

둘째, 주요 구성 요소를 자르더라도 (아마도 소음 감소 및 / 또는 과적 합 방지) 왜 그리고 어떻게 편향된 재구성 회귀가 발생합니까? 어떤 방법으로 편향 되었습니까?


도서 출처 : Daniel S. Wilks, 대기 과학 통계 방법, 2011 년 3 판. International Geophysics Series Volume 100, Academic Press.


4
(+1) 두 번째 인용에서, "편향 될 것이다"는 논리적으로 따르지 않는다 : "편향 될 가능성이있다"와 같은 온화한 말이 더 낫다. "PCR이 매개 변수 추정치 사이에 선형 관계를 부과하기 때문에 그 추론이 OLS 추정치와 다른 경향이 있으며 OLS 추정치가 편향되지 않기 때문에 PCR 추정치가 편향됨을 의미합니다." 직관적으로 좋은 휴리스틱이지만 정확하지는 않습니다.
whuber

(a) 데이터 포인트가 선택된 수의 PC보다 선형의 하위 또는 동등한 차원 매니 폴드를 차지하지 않고 (b) 데이터 포인트가 완벽하게 관련되지 않은 경우 "PCR이 바이어스 됨"이라고 말할 수 있습니까? 또는 어떻게?
Soren Havelund Welling

답변:


15

모든 PC를 사용하면 어떻게됩니까?

모든 PC를 사용하는 경우 결과 회귀 계수는 OLS 회귀로 얻은 것과 동일하므로이 절차를 "주성분 회귀"라고 부르지 않는 것이 좋습니다. 원형 회귀 방식으로 만 수행되는 표준 회귀입니다.

ZZXXi

그래서 아무것도 얻지 못했습니다.

몇 대의 PC 만 사용하면 어떻게됩니까?

β^PCRβ^OLSβ^

이것은 바이어스-분산 트레이드 오프 의 예입니다 . 수축이 작동하는 이유를 참조하십시오 . 좀 더 일반적인 토론을 위해.

yyy

고 분산 PC를 사용하는 것이 좋은 생각 인 이유는 무엇입니까?

이것은 의문의 일부는 아니지만 추가 자료를 얻기 위해 다음 스레드에 관심이있을 수 있습니다. 주요 주성분이 종속 변수에 대한 예측 능력을 어떻게 유지할 수 있습니까 (또는 더 나은 예측으로 이어질 수 있습니까)?


YY

@whuber, 실제로. 나는 그 단락을 다시 썼다. 감사.
amoeba는 Reinstate Monica가

흠. 바이어스는 본질적으로 일부 점이 다른 점보다 동일하다는 것을 의미합니다. 이는 잡음과 특이 치 (PCA가 최고의 도구인지 확실하지 않은)의 영향을 줄이려면 정확히 원하는 것입니다.
gerrit

@gerrit 바이어스에 가중치를 부여하는 것처럼 쓰지만 별도의 것입니다. 이 맥락에서 바이어스는 계수 추정치의 예상 값과 실제 값 간의 차이를 나타냅니다.
whuber

1
모형은 반응이 랜덤 변수라고 가정합니다. 이것은 임의의 절차를 사용하여 추정 된 계수를 랜덤 변수로 만듭니다. 그들의 예상 값은 임의의 변수에 대해 정의됩니다. 정의상 바이어스 는 예상 값과 실제 값의 차이입니다. OLS 계수 추정치는 바이어스가 0입니다. 다른 절차의 치우침은 여전히 ​​0이 될 수 있습니다. 인용의 논리는 OLS와 마찬가지로 선형이지만 계수들 사이의 관계를 부과하는 절차는 반드시 바이어스되어야한다는 것입니다. 그 결론은 많은 경우에 해당하지만 전부는 아닙니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.