회귀의 목적으로 예측 변수의 차원을 줄이는 이점은 무엇입니까?


11

기존의 회귀 기법에 비해 차원 축소 회귀 (DRR) 또는 감독 차원 축소 (SDR) 기법 의 적용 또는 장점은 무엇입니까 ( 차원 축소 없이)? 이러한 기술 클래스는 회귀 문제에 대한 특징 세트의 저 차원 표현을 찾습니다. 이러한 기술의 예에는 슬라이스 역 회귀, 주 헤 시안 방향, 슬라이스 평균 분산 추정, 커널 슬라이스 역 회귀, 주성분 회귀 등이 포함됩니다.

  1. 교차 검증 된 RMSE 측면에서 알고리즘이 차원 축소없이 회귀 작업에서 더 잘 수행되면 회귀에 대한 차원 축소의 실제 사용은 무엇입니까? 나는이 기술의 요점을 알지 못한다.

  2. 이러한 기술이 우연히 회귀의 공간 및 시간 복잡성을 줄이는 데 사용됩니까? 이것이 주요 이점이라면,이 기법을 사용할 때 고차원 데이터 세트의 복잡성 감소에 대한 일부 리소스가 도움이 될 것입니다. DRR 또는 SDR 기술 자체를 실행하려면 시간과 공간이 필요하다는 사실에 대해 토론합니다. 저해상도 데이터 집합에 대한이 SDR / DRR + 회귀 분석은 고차원 데이터 집합에 대한 회귀 분석보다 더 빠릅니까?

  3. 이 설정은 추상적 관심사에 대해서만 연구되었으며 실제 적용에 적합하지 않습니까?

부수적으로 생각할 때 : 때로는 피처 와 응답 의 공동 분포가 매니 폴드에 있다고 가정합니다 . 회귀 문제를 해결하기 위해 이러한 맥락에서 관찰 된 샘플로부터 매니 폴드를 배우는 것이 합리적입니다.XY


1
다음 블로그 게시물이 도움이 될 수 있도록 매니 폴드 학습에 대해 설명합니다. normaldeviate.wordpress.com/2012/09/08/hunting-for-manifolds
kjetil b halvorsen

답변:


5

매니 폴드 가설에 따르면, 데이터는 저 차원 매니 폴드에있는 것으로 가정되며, 잔차가 노이즈라는 의미이므로 차원 축소를 올바르게 수행하면 노이즈가 아닌 신호를 모델링하여 성능을 개선해야합니다. 공간과 복잡성의 문제 만이 아닙니다.


그러나 차원 축소 후 SIR과 같은 기술이 강력하게 수행되는 것을 보지 못했습니다. 틀린 경우 또는 회귀 설정에서이 신호를 더 잘 찾을 수있는 SDR / DDR 기법을 알고 있다면 어떤 기법 (이름)인지 알려주십시오.
hearse

물론 그것은 회귀 알고리즘과 데이터의 본질적 차원에 달려 있습니다. 특히 SIR을 말할 수는 없지만 MNIST 데이터 세트의 다양한 회귀 알고리즘을 비교 하는 논문 이 있습니다. 사람들이 데이터를 해독 할 수 있도록 귀찮은 데이터를 공유 할 수 있습니다.
Emre

"매니 폴드 가설"이란 무엇입니까?
amoeba


이 물건이 신경망과 비선형 다차원 스케일링과 비슷한 지 궁금합니다. 그것이 "사운드처럼"들린다는 점에서 그것은 모든 곳에서 훌륭해야하지만 실제로는 더 제한된 경우에 적합합니다
shadowtalker

6

회귀의 차원 축소의 목적은 정규화입니다.

나열된 대부분의 기술은 잘 알려져 있지 않습니다. 주요 구성 요소 회귀 (PCR)와는 별개로 들었습니다. 따라서 PCR에 대해서는 답변하지만 다른 기술에도 동일하게 적용됩니다.

여기서 중요한 두 단어는 과적 합정규화 입니다. 긴 치료와 토론을 위해 통계 학습의 요소를 참조 하지만 매우 간단히 말하면 , 많은 예측 변수 ( )가 충분하지 않고 샘플 ( )이 충분하지 않은 경우 표준 회귀 분석이 데이터에 과도 하게 적합하다는 것입니다. 훈련 세트에서 성능이 좋은 것처럼 보이지만 실제로는 모든 테스트 세트에서 성능이 매우 떨어지는 모델을 구성하십시오.pn

극단적 인 예에서, 예측의 수는 샘플의 수를 초과하는 경우 (사람들에게로 참조 문제), 당신은 실제로 수있는 완벽하게 맞는 어떤 반응 변수 보이는 달성, 성능을. 이것은 분명 말도 안됩니다.p>ny100%

과적 합을 다루기 위해서는 정규화 를 사용해야 하며, 다양한 정규화 전략이 있습니다. 일부 접근법에서는 예측 변수의 수를 대폭 줄이고 문제를 상황으로 줄이고 표준 회귀를 사용하려고합니다. 이것이 주성분 회귀 분석과 정확히 일치합니다. 요소 , 섹션 3.4--3.6을 참조하십시오 . PCR은 일반적으로 차선책이며 대부분의 경우 다른 정규화 방법이 더 잘 수행되지만 이해하고 해석하기 쉽습니다.pn

PCR도 임의적이지 않다 (예를 들어, 치수를 무작위로 유지하는 것이 훨씬 더 나빠질 수 있음). 그 이유는 PCR이 능선 회귀와 밀접하게 연결되어 있기 때문에 다양한 사례에서 잘 작동하는 것으로 알려진 표준 수축 조절기입니다. 능선 회귀와 PCA 회귀의 관계 에 대한 비교는 여기에서 내 대답을 참조하십시오 .p

표준 회귀 분석에 비해 성능이 향상 되려면 예측 변수가 많고 표본이 많지 않은 데이터 집합이 필요하며 교차 검증 또는 독립 테스트 세트를 사용해야합니다. 성능이 향상되지 않은 경우 데이터 집합의 크기가 충분하지 않은 것일 수 있습니다.

좋은 답변과 관련된 스레드 :


1
을 감안할 때 그의 출판물 그가이 알고 가정하는 것이 안전합니다.
Emre

고마워, @Emre, 나는 OP가 누구인지 전혀 몰랐다. 질문을 잘못 이해했을 수도 있지만 지금 다시 읽은 후에 어떻게 다르게 해석 할 수 있는지 알 수 없습니다. PCR의 실질적인 장점이 무엇인지 묻는다면 정답 정규화입니다. PCR은 실제로 가장 표준적인 정규화 방법 중 하나 인 능선 회귀와 밀접한 관련이 있습니다.
amoeba

그러나 Elements 에서도 LASSO가 대부분의 시간 동안 PCR을 능가한다는 인상을 받았으며 PCR의 주요 장점은p>n
shadowtalker

@ ssdecontrol : 동의합니다. 컨센서스는 PCR이 거의 경쟁적이지 않으며 거의 ​​항상 더 나은 접근법이 있다고 생각합니다. 이것은 또한 내 대답에 쓴 것입니다 (그렇지 않습니까?). 질문은 예측 변수의 차원 축소와 그 목적이 무엇인지에 관한 것입니다. 내 대답은 목적이 정규화라는 것입니다.
amoeba

이해했다. 그러나 나는 우리가 문제는 그 유용성이 실제로 직관적 호소에도 불구하고 정례화하는 가장 좋은 방법은 아니라고 주어진 도전하기 위해 특별히로드 동의 할 수 있다고 생각
shadowtalker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.