올가미와 비교하여 최상의 서브 세트 선택이 선호되지 않는 이유는 무엇입니까?


13

통계 학습 서적의 요소에서 최상의 하위 집합 선택에 대해 읽고 있습니다. 3 개의 예측 변수 이 있으면 2 3 = 8 부분 집합을 만듭니다 .x1,x2,x323=8

  1. 예측 변수가없는 부분 집합
  2. 예측 변수가 x 1 인 부분 집합x1
  3. 예측 변수가 x 2 인 부분 집합x2
  4. 예측 변수 x 3의 부분 집합x3
  5. 예측 변수 x 1 , x 2가 포함 된 부분 집합x1,x2
  6. 예측 변수 x 1 , x 3을 가진 부분 집합x1,x3
  7. 예측 변수 x 2 , x 3을 가진 부분 집합x2,x3
  8. 예측 변수 x 1 , x 2 , x 3을 가진 부분 집합x1,x2,x3

그런 다음 테스트 데이터에서 이러한 모든 모델을 테스트하여 가장 적합한 모델을 선택합니다.

이제 내 질문은 왜 올가미와 비교하여 최상의 하위 집합 선택이 선호되지 않습니까?

최고의 하위 집합과 올가미의 임계 값 함수를 비교하면 최고의 하위 집합이 올가미와 같이 일부 계수를 0으로 설정하는 것을 볼 수 있습니다. 그러나 다른 계수 (0이 아닌 계수)는 여전히 ols 값을 가지며 바이어스되지 않습니다. 반면, 올가미에서는 일부 계수가 0이고 다른 계수 (0이 아닌 계수)는 약간의 편차를 갖습니다. 아래 그림은 더 잘 보여줍니다. 여기에 이미지 설명을 입력하십시오

그림에서 가장 좋은 부분 집합의 경우 빨간색 선 부분이 회색 부분에 놓입니다. 다른 부분은 일부 계수가 0 인 x 축에 놓여 있습니다. 회색 선은 편향되지 않은 솔루션을 정의합니다. 올가미에서는 일부 바이어스가 의해 도입됩니다 . 이 그림에서 나는 최고의 하위 집합이 올가미보다 낫다는 것을 알았습니다! 최상의 하위 집합을 사용할 경우의 단점은 무엇입니까?λ


1
.. 그리고 데이터의 무작위성이 많은 잘못된 부분 집합 중 하나를 선택하게하고 관련 계수 추정치가 표준 오차와 관련하여 0에서 멀리 떨어져있을 때 곡선은 어떻게 생깁니 까?
jbowman

2
@ jbowman 나는 그것을 매우 명확하게 이해하지 못한다. 왜 데이터의 무작위성이 잘못된 것을 선택하게 할 것인가? 교차 유효성 검사를 사용하여 최상의 하위 집합을 선택하면 잘못된 하위 집합을 선택할 가능성이 줄어 듭니다.
Ville

1
당신은 "더 나은 편견"과 "더 나은 편견"을 동일시하는 것 같습니다. 편견에 그렇게 높은 가치를 두는 것은 무엇입니까?
Matthew Drury

답변:


16

부분 집합 선택에서 올바른 모형의 수퍼 세트를 선택한 경우 (예 : 실제 계수 값이 0 인 예측 변수 제거한 경우)에 0이 아닌 모수는 편향되지 않습니다. 선택 과정에서 계수가 0이 아닌 예측자를 제외하면 모든 계수 추정값이 바이어스됩니다. 선택이 일반적으로 완벽하지 않다는 데 동의하면 이것은 당신의 주장을 무효화합니다.

따라서 편견없는 모형 추정값을 "확보"하려면 잠재적으로 관련성이 높은 예측 변수를 모두 포함하는 측면에서 실수해야합니다. 즉, 전혀 선택하지 않아야합니다.

왜 이것이 나쁜 생각입니까? 편향-분산 트레이드 오프 때문에. 그렇습니다. 큰 모델은 편향되지 않지만 분산이 크며 분산이 예측 (또는 기타) 오류를 지배합니다.

따라서, 부분 집합 선택이 실제 제로 매개 변수 만 제거하여 편차가 더 큰 편견없는 모형을 가지기를 바라기보다는 모수 추정값 편향되지만 분산 (규제화)이 더 낮다 점을 수용하는 것이 좋습니다 .

λλ0pλλ0β^pβ^p=0β^p=β^pOLS

이것이 도움이 될 수 있습니다. 왜 수축이 작동합니까?


흠. 이것이 왜 최고의 하위 집합이 올가미 (여기의 주요 질문)보다 나쁜 이유에 대해서는 대답하지 않습니다.
amoeba는

@amoeba : 자세히 설명 하시겠습니까?
Stephan Kolassa 2016 년

글쎄, 왜 올가미가 최고의 하위 집합보다 선호되는지 묻는 질문을 이해했습니다. 교차 유효성 검사 루프에 둘 다 넣은 다음 올가미 매개 변수를 조정하거나 최상의 하위 집합을 찾습니다. 올가미가 일반적으로 권장됩니다. 그런지 묻는 질문을 이해 했습니까? (예를 들어 Q의 제목 참조) 귀하의 답변이 실제로 그 대답인지 확실하지 않습니다. 아니면 당신의 대답을 오해 했습니까?
amoeba는

1
λλ0ppλλ0β^p

1
이 답변이 실제로 질문에 대한 답변이 아님에 동의합니다. 아래에이 내용을 추가했습니다.
Tom Wenseleers

11

원칙적으로 최상의 부분 집합을 찾을 수 있다면 (1) 실제로 적합에 기여하는 변수를 선택하고, (2) 적합에 기여하지 않는 변수를 선택하지 않고, LASSO보다 낫습니다. (3) 예측 정확도 및 (4) 선택된 변수에 대해 본질적으로 편향되지 않은 추정치 생성. LASSO에 비해 최상의 서브 세트의 우수한 품질을 주장한 최근 논문 중 하나는 Bertsimas et al (2016)의 "현대 최적화 렌즈를 통한 최상의 서브 세트 선택" 입니다. LASSO 나 능선보다 최상의 부분 집합이 더 좋은 구체적인 사례 (스파이크 열차의 디컨 볼 루션)를 제공하는 또 다른 오래된 사례는 de Rooi & Eilers (2011)의 사례입니다.

L0L1L0Lqq가 0에 가까워 질 때 규범에 불이익이 가해지는 회귀는 원칙적으로 LASSO보다 최상의 부분 집합 선택에 더 가깝지만 더 이상 볼록 최적화 문제가 아니므 로 적합 하지 않습니다 .

LASSO의 편향을 줄이려면 적응 형 LASSO (최소 제곱 또는 능선 회귀 적합치로부터의 사전 추정치에 따라 계수가 차등 적으로 처벌 됨) 또는 완화 된 LASSO (간단한 해결 방법)와 같은 파생 된 다단계 접근법을 사용할 수 있습니다. 최소 제곱은 LASSO에 의해 선택된 변수에 적합합니다. 최상의 하위 집합과 비교하여 LASSO는 약간 너무 많은 변수를 선택하는 경향이 있습니다. 최상의 서브 세트 선택이 더 좋지만 맞추기가 더 어렵습니다.

L0최상의 하위 집합, LASSO 및 완화 된 LASSO와 같은 일부 LASSO 변형에 대한 광범위한 비교를 제공하며, 완화 된 LASSO는 가장 광범위한 상황에서 가장 높은 모델 예측 정확도를 생성 한 것으로 주장합니다. Bertsimas. 그러나 어떤 것이 가장 좋은지에 대한 결론은 가장 잘 고려하는 것 (예 : 가장 높은 예측 정확도 또는 관련 변수를 선택하고 관련없는 변수를 선택하지 않는 데 가장 적합)에 영향을 미칩니다. 능선 회귀는 일반적으로 너무 많은 변수를 선택하지만 그럼에도 불구하고 매우 공선 변수는 실제로 좋을 수 있습니다).

설명하는 것처럼 3 개의 변수가있는 매우 작은 문제의 경우 분명한 최상의 하위 집합 선택이 선호되는 옵션입니다.


1
"올가미보다 낫다"라는 구절에서 "더 나은"은 무엇을 의미합니까?
Matthew Drury

1
kλkkk

좀 더 자세하게 설명하기 위해 내 대답을 약간 편집했습니다 ...
Tom Wenseleers

나는 그 어떤 대답도 안정성 문제를 다루고 있다고 생각하지 않습니다. 단계적이고 모든 가능한 부분 집합 회귀와 마찬가지로 lasso불안정한 것으로 악명이 높습니다. 다시 말해서 전체 프로세스를 부트 스트랩하려면 선택한 기능 목록에서 너무 많은 임의성을 발견하게됩니다.
Frank Harrell 2016 년

그렇습니다. LASSO에 의해 선택된 변수는 불안정 할 수 있으며, 이는 가장 좋은 부분 집합 회귀의 경우입니다-탄성 순 회귀는이 점에서 조금 더 좋습니다-너무 많은 변수를 포함하는 경향이 있지만 더 많이 선택됩니다 안정적인 방법으로, 높은 공선 성에서 더 나은 예측 정확도를 제공 할 수 있습니다. 그러나 예측 정확도, 관련이없는 변수를 포함하는 잘못된 양성률 또는 관련성이 높은 변수를 포함하지 않는 잘못된 음성률은 응용 분야에서 가장 중요한 기준에 따라 다릅니다.
Tom Wenseleers
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.