탄성 그물과 관련된 혼란

나는 탄성 그물과 관련된이 기사를 읽고있었습니다. 그들은 우리가 단지 올가미를 사용하는 경우 상관 관계가 높은 예측 변수 중 하나만 선택하는 경향이 있기 때문에 탄력적 그물을 사용한다고 말합니다. 그러나 이것이 우리가 원하는 것이 아닙니다. 그것은 그것이 다중 공선 성 문제에서 우리를 구원한다는 것을 의미합니다.

어떤 제안 / 설명?

regression lasso elastic-net

— 사용자
소스

답변:

두 예측 변수가 반응에 강한 영향을 미치지 만 모형을 작성하는 표본에서 상관성이 높다고 가정합니다. 모형에서 하나를 제거하면 예측 변수가 서로 관련이없는 유사한 모집단의 표본에 대해서는 잘 예측되지 않습니다.

다중 공선 성이 존재할 때 계수 추정값의 정밀도를 향상 시키려면 약간의 편차를 가져 와서 편차를 크게 줄여 오프셋을 설정해야합니다. 한 가지 방법은 LASSO를 사용하여 예측 변수를 완전히 제거하거나 이전에는 단계별 방법으로 계수 추정값을 0으로 설정하는 것입니다. 다른 하나는 산등성이 회귀를 사용하거나 이전에는 처음 몇 가지 주요 구성 요소에 대해 회귀를 사용하여 모든 추정치를 약간 편향시키는 것입니다. 전자의 단점은 예측 변수가 다른 샘플과 많이 함께 사용되지 않기 때문에 제외되는 경향이 있기 때문에 모델이 원래 샘플에서 발생한 것과 다른 예측 변수 패턴에 대한 반응을 예측하는 데 사용되는 경우 매우 안전하지 않다는 것입니다 . 거의 공선, 예측 자. (외삽이 완전히 안전하지는 않습니다.) @ net12436이 설명 하듯이 탄성 망은이 둘의 혼합이며 모형에 상관 된 예측 변수 그룹을 유지하는 경향이 있습니다.

— Scortchi-복권 모니카
소스

이 새로운 샘플에서 왜 잘 예측하지 못합니까?

— user31820

모형에 중요한 예측 변수가 없기 때문입니다.

— Scortchi-Monica Monica 복원

두 예측 변수가 모집단의 한 대표 표본에서 상관되어있는 경우 다른 표본에서 상관되어서는 안됩니까? "원래 샘플에서 발생한 데이터와 다른"데이터에 모델을 사용하는 경우 경계선이 모델을 잘못 사용하지 않습니까?

— Matthew Drury

@MatthewDrury : 모델의 "올바른"경우-귀찮게 관찰 할 수없는 관찰자가없고, 기능적 형태를 외삽 할 수있는 경우-표본의 예측 변수 분포는 중요하지 않습니다. 추정치 및 예측). 따라서 극단적 인 원인은 인과 적 요인에 대한 잘 통제 된 실험 연구의 데이터를 기반으로 한 기계 모델을 가질 수 있습니다. 다른 하나는 측정하기 쉬운 여러 변수에 대한 관측 연구에서 수집 한 데이터를 기반으로 한 경험적 모델입니다.

— Scortchi-Monica Monica 복원

구 : " 이전에는 단계적인 방법 으로 나를 웃게 만들었습니다. : D (분명한 +1, 이것이 정답입니다)

— usεr11852

그러나 이것이 우리가 원하는 것이 아닙니다. 그것은 그것이 다중 공선 성 문제에서 우리를 구한다는 것을 의미합니다.

예! 아니 탄력적 그물은 L2 정규화 (리지 능형 회귀에 사용)와 L1 정규화 (LASSO에 사용)의 두 가지 정규화 기술의 조합입니다.

올가미는 자연스럽게 희소 모델을 생성합니다. 즉, 대부분의 가변 계수는 0으로 축소되고 효과적으로 모델에서 제외됩니다. 따라서 모든 변수가 축소되는 반면에 실제로 0으로 축소되지 않는 능선과 달리 다른 변수를 축소하기 전에 가장 중요하지 않은 변수는 축소됩니다.

Elastic net은이 두 가지 방법의 선형 조합을 사용합니다. 방법을 논의 할 때 Hastie가 언급 한 특정 사례는 큰 p, 작은 n의 경우였다. 즉, 관측치가 비교적 적은 고차원 데이터입니다. 이 경우 LASSO는보고 된 바에 따라 최대 n 개의 변수 만 선택하고 나머지는 모두 제거합니다 ( Hastie의 논문 참조) .

항상 실제 데이터 세트에 의존하지만 모델의 변수 수에 대한 상한이 항상 관측치 수와 같거나 낮지 않기를 원한다고 상상할 수 있습니다.

— 의미하는 의미
소스

그러나 다중 공선 성은 어떻습니까? 탄성 그물은 좋지 않은 다중 공선 기능을 선택할 수 있습니까?

— user31820

많은 실제 데이터 세트에 완벽하게 다중 공선 변수가 있다고 생각하지 않습니다. 상관 관계가 높은 변수는 거의 공선 형일 수 있으며 여전히 문제가되지만 모델에 모두 중요 할 경우 기꺼이 받아 들일 수 있습니다.

— 의미 수단

위에 추가 된 링크는 yahoo.com으로 연결됩니다. 또한 [종이] ( onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/… )는 Zou and Hastie (Elastic net one)의 글입니다.

— KarthikS

Lasso와 Elastic Net은 모두 고차원 데이터 설정에서 환자 또는 샘플보다 훨씬 더 많은 변수 (예 : 20,000 개의 유전자 및 500 개의 종양 샘플)에서 변수 또는 특징 선택을 수행하는 효율적인 방법입니다.

데이터가 높은 상관 관계가있을 때 Elastic Net이 Lasso보다 성능이 우수하다는 사실이 Hastie와 다른 사람들에 의해 입증되었습니다. 올가미는 상관 변수 중 하나만 선택할 수 있으며 어떤 변수가 선택되었는지는 신경 쓰지 않습니다. 독립적 인 데이터 세트에서 선택한 변수의 유효성을 검사하려는 경우 문제가 될 수 있습니다. 올가미에 의해 선택된 변수는 모든 상관 변수 중에서 최상의 예측 변수가 아닐 수 있습니다. Elastic Net은 상관 관계가 높은 변수를 평균하여이 문제를 해결합니다.

— 밀라노
소스