부분 최소 제곱 회귀의 이론


33

SVD와 PCA를 이해하는 사람을 위해 부분 최소 제곱 회귀 (온라인에서 사용 가능) 뒤에 이론을 잘 설명 할 수 있습니까? 온라인에서 여러 출처를 살펴본 결과 엄격하고 접근성이 올바른 조합을 찾지 못했습니다.

zi=XφiyTziφi=1ziTzj=0ij여기서 는 공분산을 최대화하는 순서대로 반복적으로 선택됩니다. 그러나 내가 읽은 후에도 나는 그것이 사실인지 여부와 여전히 그렇다면 방법이 어떻게 실행되는지 확실하지 않습니다.φi

답변:


38

통계 학습 요소의 3.5.2 절 은 PLS 회귀를 올바른 컨텍스트 (다른 ​​정규화 방법)에두기 때문에 유용하지만 실제로는 매우 짧고 중요한 설명을 연습으로 남깁니다. 또한 일 변량 종속 변수 의 경우 만 고려합니다 .y

PLS에 대한 문헌은 방대하지만 PLS에는 여러 가지 "맛"이 있기 때문에 혼란 스러울 수 있습니다. 단일 DV (PLS1) 가있는 단 변량 버전과 여러 DV (PLS2)가있는 다변량 버전 , 대칭 버전 처리 및 동일 비대칭 버전 ( "PLS 회귀") 치료 로서 독립적 종속 변수, 모든 음을 생성하도록 반복 접힘을 필요 SVD 및 버전을 통해 글로벌 솔루션을 가능 버전과 한 쌍의 PLS 방향 등Y X Y X YyYXYXY

이 모든 것은 화학량 론 분야에서 개발되었으며 "주류"통계 또는 기계 학습 문헌과 다소 분리되어 있습니다.

내가 가장 유용하고 더 많은 참고 문헌을 포함하는 개요 문서는 다음과 같습니다.

더 이론적 인 토론을 위해 다음을 더 추천 할 수 있습니다.


일 변량 사용한 PLS 회귀에 대한 짧은 입문서 (일명 PPL1, 일명 SIMPLS)y

회귀의 목표는 선형 모델 에서 를 추정하는 것입니다 . OLS 솔루션 는 많은 최적 특성을 즐기지 만 과적 합을 겪을 수 있습니다. 실제로 OLS는 와 의 가능한 가장 높은 상관 관계를 생성하는 를 찾습니다 . 예측 변수가 많으면 항상 와 높은 상관 관계가있는 선형 조합을 찾을 수 있습니다 . 이것은 스퓨리어스 상관 관계가 될 것이며, 그러한 는 보통 에서 아주 작은 차이를 설명하는 방향을 가리킬 것입니다Y는 = X β + ε β = ( XX ) - 1 XY β X β Y Y β Xβy=Xβ+ϵβ=(XX)1XyβXβyyβX. 매우 작은 분산을 설명하는 방향은 종종 "잡음이 많은"방향입니다. 그렇다면 교육 데이터 OLS 솔루션에서도 성능이 우수하지만 데이터 테스트에서는 성능이 훨씬 떨어집니다.

과적 합을 방지하기 위해, 정규화 방법을 사용하여 가 의 높은 분산 방향을 가리 키도록합니다 (이것은 의 "수축률"이라고도 합니다. 수축이 작동하는 이유 참조 ). 그러한 방법 중 하나는 모든 저 분산 방향을 버리는 주성분 회귀 (PCR)입니다. 또 다른 (더 나은) 방법은 저 분산 방향에 부드럽게 불이익을주는 능선 회귀입니다. 또 다른 방법은 PLS1입니다.X ββXβ

PLS1은 상관 관계를 최대화 하는 찾기의 OLS 목표를 으로 바꾸고 를 길이 를 찾는 대체 목표로 바꾸십시오 공분산 최대화 다시 저 효과적으로 분산 방향을 불리하게한다.βcorr(Xβ,y)ββ=1

cov(Xβ,y)corr(Xβ,y)var(Xβ),

이러한 ( )를 첫 번째 PLS 구성 요소 됩니다. 이전의 모든 구성 요소와 상관 관계가 없다는 제약 조건 하에서 와 가능한 가장 높은 공분산을 갖는 두 번째 (및 세 번째 등) PLS 구성 요소를 더 찾을 수 있습니다 . 이 모든 구성 요소에 대한 폐쇄 형 해법 (제 성분의 방향이 없기 때문에, 반복적으로 해결되어야 간단히 주어진다ββ1z1=Xβ1yβ1Xy단위 길이로 정규화 됨). 원하는 수의 성분이 추출 될 때, PLS 회귀는 원래 예측자를 버리고 PLS 성분을 새로운 예측 자로 사용한다; 이것은 모든 와 결합되어 최종 를 형성 할 수있는 의 선형 결합을 생성합니다 .βzβiβPLS

참고 :

  1. 모든 PLS1 구성 요소가 사용되면 PLS는 OLS와 같습니다. 따라서 구성 요소 수는 정규화 매개 변수로 사용됩니다. 숫자가 낮을수록 정규화가 더 강력 해집니다.
  2. 예측 변수 가 서로 관련이없고 모두 동일한 분산을 갖는 경우 (예 : 가 희게 된 경우 ) PLS1 성분이 하나만 있고 OLS와 같습니다.XX
  3. 대한 가중치 벡터 및 는 직교하지 않지만 상관되지 않은 성분 및 합니다.β j i j z i = X β i z j = X β jβiβjijzi=Xβizj=Xβj

존재, 내가 알고 아니라고 말했다 모든 것을 어느 능선 회귀를 통해 PLS1 회귀의 실질적인 장점 후자는 많은 장점을 가지고있는 동안 (: 그것은 연속 및 이산하지, 분석 솔루션을 훨씬 더 표준 커널 확장 및 분석을 할 수 있습니다 일대일 교차 검증 오류 등에 대한 공식 등).


Frank & Friedman 인용 :

RR, PCR 및 PLS는 섹션 3에서 유사한 방식으로 작동하는 것으로 보입니다. 그들의 주요 목표는 더 큰 샘플 스프레드의 예측 변수 가변 공간의 방향으로 OLS 솔루션에서 솔루션 계수 벡터를 축소하는 것입니다. PCR 및 PLS는 RR보다 낮은 확산 방향으로부터 더 크게 수축하는 것으로 나타 났으며, 이는 전 방향에 대한 최적의 수축 (선형 추정기 중)을 제공합니다. 따라서 PCR과 PLS는 진실이 예측 변수 (샘플) 분포의 높은 확산 방향과 특히 우선적으로 정렬 될 가능성이 있다고 가정합니다. 다소 놀라운 결과는 PLS 장소 (부가)을 갖는 진정한 계수 벡터 배향의 확률 질량 증가한다는 것이다 번째 주성분 방향,KKK 실제로 사용 된 PLS 구성 요소의 수는 실제로 해당 방향으로 OLS 솔루션을 확장합니다.

또한 광범위한 시뮬레이션 연구를 수행하고 결론을 내립니다 (강조 광산).

이 시뮬레이션 연구에서 다루는 상황에 대해 모든 바이어스 된 방법 (RR, PCR, PLS 및 VSS)이 OLS보다 실질적으로 개선되었다고 결론을 내릴 수 있습니다. [...] 모든 상황에서 RR은 연구 된 다른 모든 방법을 지배했습니다. PLS는 일반적으로 거의 RR뿐만 아니라 PCR보다 성능이 뛰어나지 만 성능이 크게 향상되지는 않았습니다.


업데이트 : 의견에서 @cbeleites (화학 측정에서 일하는 사람)는 RR에 비해 PLS의 두 가지 장점을 제안합니다.

  1. 분석가가 가질 수있는 사전은 잠상 성분 데이터에 존재하는 방법에 많은 추측; 이를 통해 교차 검증을 수행하지 않고도 정규화 강도를 효과적으로 설정할 수 있습니다 (그리고 신뢰할 수있는 CV를 수행하기에 충분한 데이터가 없을 수도 있음). 의 이러한 사전 선택은 RR에서 더 문제가 될 수 있습니다.λ

  2. RR은 최적의 솔루션으로 하나의 단일 선형 조합 을 생성합니다. 대조적으로, 예를 들어 5 개의 성분을 갖는 PLS는 5 개의 선형 조합 을 생성 한 다음 결합하여 를 예측한다 . 서로 밀접하게 연관되어있는 원래 변수는 단일 PLS 구성 요소로 결합 될 수 있습니다 (함께 결합하면 설명 된 분산 항이 증가하므로). 따라서 개별 PLS 구성 요소를 유발하는 실제 잠재 요인으로 해석 할 수 있습니다 . 주장은 과 반대로 등 을 해석하기가 더 쉽다는 것입니다 . β i y y β 1 , β 2 , β P L SβRRβiyyβ1,β2,βPLS. 이것을 개별 주성분이 잠재적으로 해석되고 질적 의미가 부여 될 수 있다는 이점으로 볼 수있는 PCR과 비교하십시오.


1
그 종이는 유용 해 보입니다. 나는 그것이 PLS에 의해 얼마나 많은 과적 합이 발생할 수 있는지에 대해서는 생각하지 않는다.
Frank Harrell

3
맞습니다, @Frank, 그러나 솔직히 예측 성능에 관한 한 능선 회귀 이외의 다른 일을하는 것은별로 의미가 없습니다 (또는 희소성이 필요한 경우 탄력적 인 그물). PLS에 대한 나의 관심은 와 가 다변량 일 때 차원 축소 측면에있다 . 그래서 PLS가 정규화 기술로 다른 정규화 방법과 비교하여 어떻게 수행되는지에 대해서는별로 관심이 없습니다. 정규화해야하는 선형 모델이있는 경우 능선을 사용하는 것이 좋습니다. 여기에 무슨 경험이 있는지 궁금 하신가요? YXY
amoeba는

3
내 경험은 능선 (이차적 벌점 최대 가능성 추정)이 우수한 예측을 제공한다는 것입니다. 일부 분석가는 PLS가 과적 합을 피한다는 의미에서 차원 축소 기술이라고 생각하지만 그럴 수는 없습니다.
Frank Harrell

2
b) 모델의 기능에 대한 분 광학적 해석을 원한다면 어떤 종류의 물질이 측정되는지 PLS 로딩을 쉽게 볼 수 있습니다. 더 많은 물질의 스펙트럼 기여가 결합되어 있기 때문에 모든 잠재 변수를 포함하는 계수가 해석하기 어려운 반면, 하나 또는 두 개의 물질 / 물질 클래스가있을 수 있습니다. 일반적인 스펙트럼 해석 규칙이 모두 적용되는 것은 아니기 때문에 더욱 두드러집니다. PLS 모델은 다른 물질은 무시하면서 물질의 일부 ​​밴드를 선택할 수 있습니다. "일반"스펙트럼 해석이 밴드를 많이 사용하는 수 ...
cbeleites 지원 모니카

2
...이 물질에서 나옵니다. 이 물질이라면 다른 밴드가 있어야합니다. 후자의 변수 / 적재 / 계수로 물질을 검증 할 수있는 후자의 가능성이 있기 때문에, 다양한 변수를 해석하여 동일한 잠재 변수로 끝나는 것을 해석하는 것이 이미 모든 종류의 가능한 "힌트를 요약 한 계수를 해석하는 것보다 훨씬 쉽다 "로 알려진 모델입니다.
cbeleites는

4

예. Herman Wold의 저서 Theorytical Empiricism : 과학적 모델 구축에 대한 일반적인 이론적 근거 는 내가 알고있는 PLS를 가장 잘 표현한 것입니다. 이 책은 읽고 알고있는 흥미로운 책이라는 것은 말할 것도 없습니다. 또한 아마존에서 검색 한 결과, 독일어로 작성된 PLS 관련 서적에 대한 참조 횟수는 놀랍지 만 Wold의 책 자막이 그 이유의 일부일 수 있습니다.


1
amazon.com/Towards-Unified-Scientific-Models-Methods/dp/… 는 관련이 있지만 PLS 이상을 다루고 있습니다
kjetil b halvorsen

사실이지만이 책의 주요 초점은 PLS의 이론과 응용에 대한 Wold의 개발입니다.
Mike Hunter
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.