모든 PLS 구성 요소가 함께 원본 데이터의 일부만 설명하는 이유는 무엇입니까?


10

10 개의 변수로 구성된 데이터 세트가 있습니다. 이 10 개의 변수로 단일 반응 변수를 예측하기 위해 부분 최소 제곱 (PLS)을 실행하고 10 개의 PLS 성분을 추출한 다음 각 성분의 분산을 계산했습니다. 원래 데이터에서 나는 702 인 모든 변수의 분산의 합을 취했습니다.

그런 다음 각 PLS 구성 요소의 분산을이 합계로 나누어 PLS가 설명하는 분산의 백분율을 얻습니다. 놀랍게도 모든 구성 요소는 원래 분산의 44 %를 설명합니다.

이에 대한 설명은 무엇입니까? 100 %가되어서는 안됩니까?


응답 측 (y)에서 알 수 있듯이 PLS 구성 요소의 수는 관찰의 최소 수입니다. 20 개의 관측치가 있습니다. 그러나 다른 한편으로는 10 개의 독립 변수가있어서 10 PLS로 제한됩니다. 내 질문은 각 구성 요소 (PLS 또는 PCA)별로 설명 된 분산을 계산하는 일반적인 공식은 무엇입니까?
Ress

mathworks.com/help/stats/plsregress.html 이 예제는 Y 측에 변수가 하나만 있고 10 개의 구성 요소를 계산합니다.
Ress

답변:


12

모든 PLS 성분의 분산의 합은 일반적으로 100 % 미만입니다.

부분 최소 제곱 (PLS)에는 많은 변형이 있습니다. 여기서 사용한 것은 일 변량 반응 변수 여러 변수에 대한 PLS 회귀 입니다. ; 이 알고리즘은 전통적으로 PLS1으로 알려져 있습니다 (다른 변형과 달리 , 간결한 개요는 Rosipal & Kramer, 2006, 부분 최소 제곱의 최근 발전을 참조하십시오 ). PLS1은 나중에 SIMPLS라고하는보다 세련된 공식과 동등한 것으로 나타났습니다 ( Rosipal & Kramer 의 Paywalled Jong 1988 참조 ). SIMPLS에서 제공하는 뷰는 PLS1에서 진행중인 작업을 이해하는 데 도움이됩니다.yX

PLS1이하는 일은 일련의 선형 투영 를 찾는 것 입니다.ti=Xwi

  1. 와 공분산 은 최대입니다.yti
  2. 모든 가중치 벡터의 단위 길이는 ;wi=1
  3. 두 개의 PLS 구성 요소 (일명 점수 벡터) 및 는 서로 관련이 없습니다.titj

가중치 벡터는 직교 형일 필요는 없습니다.

이것은 가 변수 로 구성되어 있고 PLS 성분을 찾았다면, 기초 벡터에서 상관 관계가없는 투영법을 사용하여 직교하지 않은 기초를 찾았 음을 의미합니다. 그러한 상황에서 이러한 모든 예측의 분산의 합이 의 총 분산보다 작다는 것을 수학적으로 증명할 수 있습니다 . 가중치 벡터가 (예를 들어 PCA에서와 같이) 직교 인 경우 동일하지만 PLS에서는 그렇지 않습니다.Xk=1010X

나는 이 문제를 명시 적으로 논의 하는 교과서 나 논문을 모르지만, 선형 직교 분석 (LDA)과 관련하여 비 직교 단위 중량 벡터에 대해 많은 상관없는 투영을 생성한다고 설명했습니다. : PCA 및 LDA의 설명 된 분산 비율 .


감사합니다. 그렇습니다. 하중 (중량) 벡터가 직교하지 않다는 것을 몰랐습니다. 따라서 X의 최대 분산을 포착하지 못합니다. MATLAB 예에 따라 수학적으로 "PCTVAR"값을 얻는 방법을 알려 주시겠습니까?.
Ress

확실하지 않지만 생각할 수 있습니다. PCTVAR(X에 설명 된 분산의 백분율)의 첫 번째 열이 계산과 일치하지 않습니까? 아니면 두 번째 열 (y에 설명 된 분산의 백분율)에 대해 묻고 있습니까? 일반적으로 PLS 수학에 들어가려면 Rosipal & Kramer의 논문을 읽고 링크를 따르십시오.
amoeba 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.