회귀에 포함 할 희소 주성분 수 선택


9

회귀 모델에 포함 할 희소 주성분 수를 선택하는 방법에 대한 경험이 있습니까?


나는 특별히 그것에 대한 경험이 없지만 교차 유효성 검사가 항상 그렇듯이 좋은 접근 방법이라고 가정합니다.
amoeba

답변:


4

귀하의 질문에 대한 직접적인 통찰력은 없지만 일부 연구 논문 을 살펴 보았습니다. 물론, 당신이 희소 PCA , 주요 구성 요소 회귀 및 관련 주제에 대해 이야기하고 있음을 올바르게 이해하면 . 이 경우 논문은 다음과 같습니다.


1
나는이 모든 참고 문헌에 대해 몰랐다. 그들은 매우 좋습니다-감사합니다.
Frank Harrell

@ FrankHarrell : 천만에요! 기꺼이 도와 드리겠습니다.
Aleksandr Blekh

1

또한 교차 검증 결과를 사용하여 LSI 공간에 대한 최적의 차원 수를 결정했습니다. 너무 적은 차원은 데이터의 예측력을 활용하지 않았습니다. 너무 많은 치수로 인해 과적 합이 발생했습니다. 그림 4는 LSI 치수 수가 다른 모델의 평균 오차 분포를 보여줍니다. 4 차원 LSI 공간을 가진 모델은 최소 평균 오류 수와 최소 중간 수 오류를 모두 생성하므로 최종 모델은 4 차원 LSI 공간을 사용하여 작성되었습니다.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

ieee 회원이 아닌 경우 사본을 게시 할 수 있습니다.

이것은 내가 저학년에 쓴 논문에서 나온 것입니다. 로지스틱 회귀 모델에 사용할 차원 (잠재적 의미 체계 색인 작성은 PCA와 유사)을 결정해야하는 문제가있었습니다. 내가 한 것은 메트릭을 선택하고 (즉, 플래그 가능성 .5를 사용할 때의 오류율) 다른 차원에서 훈련 된 다른 모델에 대한이 오류율의 분포를 살펴 보았습니다. 그런 다음 오류율이 가장 낮은 모델을 선택했습니다. ROC 곡선 아래 영역과 같은 다른 메트릭을 사용할 수 있습니다.

단계적 회귀와 같은 것을 사용하여 차원의 수를 선택할 수도 있습니다. 구체적으로 어떤 유형의 회귀를 수행하고 있습니까?

sparse btw은 무슨 뜻인가요?


스파 스 PC는 예를 들어 L1 (lasso)-페널티 PCA입니다. 일반적인 PCA에서는 일반적으로 설명 된 변형 순서대로 용어를 입력 할 수 있습니다. 스파 스 PCA를 사용하면 상황이 조금 더 불규칙하므로 선택이 어려울 수 있습니다.
Frank Harrell

질문에 대해 특별히이었다 스파 스 주성분,이 대답은 (는 좋은으로) 그것을 해결하지 않는 전혀 그렇게 -1.
amoeba

와의 연관성을 기반으로 구성 요소를 선택하는 단계적 회귀 와이특수한 패널티 기능이 통합되어 있지 않으면 과적 합이 발생합니다.
Frank Harrell

@FrankHarrell 잠재적으로 일어날 수는 있지만 R- 제곱 대신 AIC를 사용하면 발생할 가능성이 적습니다.
Andrew Cassidy

@amoeba 혼란 스러워요 ... 아니요 주요 의견의 "스파 스"부분을 다루지 않았지만 의견에 교차 검증을 사용하는 것과 동일한 제안을 했습니까?
앤드류 캐시디
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.