LARS에서 찾은 모델이 전체 검색에서 찾은 모델과 가장 다른 설정은 무엇입니까?


9

조금 더 많은 정보; 한다고 가정

  1. 선택할 변수 수와 LARS 절차에서 계수가 0이 아닌 변수를 정확히 갖는 것과 같은 복잡성 패널티를 미리 설정 한 경우,
  2. 계산 비용은 문제가되지 않습니다 (총 변수 수는 작습니다 (예 : 50)).
  3. 모든 변수 (y, x)는 연속적입니다.

LARS 모델 (즉, LARS 피팅에서 0이 아닌 계수를 갖는 변수의 OLS 피팅)은 어떤 설정에서 계수가 동일하지만 철저한 검색 (la regsubsets ())을 통해 찾은 모델과 가장 다릅니 까?

편집 : '실제'계수가 0 인 변수 중 10 개 (및 모든 기능이 서로 밀접하게 관련되어 있음)를 제외하고 표준 가우스에서 가져온 실제 계수와 함께 50 개의 변수와 250 개의 관측치를 사용하고 있습니다. 선택된 두 변수 세트의 차이가 미세하기 때문에 이러한 설정은 분명히 좋지 않습니다. 이것은 실제로 가장 큰 차이점을 얻기 위해 어떤 유형의 데이터 구성을 시뮬레이션해야하는지에 대한 질문입니다.

답변:


1

여기에 LARS 알고리즘의 설명입니다 http://www-stat.stanford.edu/~tibs/lasso/simple.html 그것은 일종의 내가 그것을 놓칠 수 있다는 추측 벤처 것 때문에 무시 회귀 변수 사이의 상관 관계 다중 공선 성의 경우 적합합니다.


그것이 실제로 제 질문에 동기를 부여하는 것입니다. vif의 가장 큰 값이 30을 초과하는 50 개의 변수로 설정을 시뮬레이션했으며 두 가지 접근 방식 사이에 여전히 차이가 거의 없습니다 (예 : 선택한 모델의 R ^ 2).
user603

1
나는 나 자신이 stepAIC과 lars에 대해 다른 대답을 발견했으며 내 문제가 LASSO 그룹으로 처리되어야한다고 상상할 것입니다. 이는 전체 행렬의 VIF가 아니라 여러 관련 변수 클러스터에 관한 것입니다.
Alex

Interresting ... 어떻게 그러한 데이터를 생성합니까? (즉, 상관 변수 클러스터)
user603

내부에 상관 관계가있는 여러 독립 그룹을 함께 쌓으십시오. 나는 많은 브랜드에 대해 같은 질문을 많이했다. 사람들은 자신이 선택한 브랜드를 좋아하고 다른 브랜드를 싫어하는 경향이있다.
Alex

3

샘플 수와 관련하여 더 많은 기능을 사용할수록 LARS보다 exaustive 검색 방법을 사용하는 것이 더 적합합니다. LARS에 사용 된 페널티 용어는 단일 정규화 매개 변수에 의해 색인화되는 점점 더 복잡한 모델의 중첩 구조를 부과하므로 LARS를 사용한 기능 선택의 "자유도"는 상당히 낮습니다. 추출 검색의 경우 피처 당 하나의 (이진) 자유도가 있습니다. 즉, 추출 검색은 데이터의 임의 샘플링으로 인해 피처 선택 기준에서 랜덤 변동성을보다 잘 활용할 수 있습니다. 결과적으로, "가설 클래스"가 클수록 추출 검색 모델이 기능 선택 기준에 심각하게 적합 할 수 있습니다.


당신의 대답은 내 질문과 관련이없는 것 같습니다. 명확하게하기 위해 : LARS에 의해 활성화 된 것으로 선택된 변수의 하위 집합이 철저한 검색에 의해 선택된 변수의 하위 집합과 가장 다른 상황을 생성하는 데 실제로 관심이 있습니다. 이는 LARS 모델 간의 R ^ 2의 차이로 측정됩니다. 그리고 같은 수의 활성 변수를 가진 철저한 검색 모델 . 이 차이가 클 수있는 대적 사례를 생각할 수 있습니까? 이 용어로 답을 다시 표현할 수 있습니까?
user603

3
내 답변은 귀하의 질문과 직접 ​​관련이 있습니다. 과적 합의 정도는 피처 수에 의해서만 제어되는 것이 아니라 가중치 값에 의해 제어됩니다. 따라서 더 많은 기능을 사용하지 않고도 오 버핏 할 수 있습니다. LARS는 가중치의 크기에 페널티를 주므로 큰 가중치를 희생하여 제곱 손실 만 줄이는 기능을 선택하지 않기 때문에 과적 합이 덜 발생합니다. Exaustive 검색 방법은 기본적으로 과적 합을위한 레시피이므로 과적 합이 발생할 가능성이있는 상황에서는 매우 다른 솔루션을 얻을 수 있습니다.
Dikran Marsupial

좋아, 나는 당신의 요점을 얻는다 : 그것은 내 원래의 질문에서 내가 생각했던 것에서 나온 것입니다 (그리고 지금 더 명확하게 만들었습니다). 저는 실제로 사과를 사과와 비교하고 있습니다 (즉, 선택된 모델), 즉 LARS에 의해 선택된 변수를 사용하여 (R ^ 2) OLS에 적합하고 그것들을 사용하여 (R ^ 2 중) OLS에 적합합니다 철저한 검색에 의해 선택된 변수. LARS 계수를 직접 사용하지 않습니다 ....
user603

3
직교하지 않기 때문에 한 모델이 다른 모델보다 다른 모델보다 더 나을 것 같지 않습니다. 과적 합 가능성이 높은 상황에서는 과도한 검색 기반 모델이 불안정 할 수 있습니다 (예 : 다른 500 개의 샘플을 수집하는 경우 다른 기능 집합을 얻을 수 있음). 반면에 LARS는 더 안정적으로되기 위해 부적절합니다. 과적 합을 초래하기 위해 50 개의 피처와 500 개의 샘플이 likley인지 여부는 데이터 세트의 특성에 따라 다르지만 확실히 가능합니다. 철저한 검색은이 샘플에 고유 한 변동성을 설명하는 기능을 선택할 수 있습니다. LARS는 덜 그렇습니다.
Dikran Marsupial

2
그렇게하고 싶은지 설명 할 수 있다면 도움이 될 것입니다. 당신이 볼 필요가있는 것은 데이터 분포의 무게뿐만 아니라 실제 모델의 무게의 크기라고 생각합니다. 페널티 회귀 모델 (LASSO, LARS, Elaris net, 릿지 회귀)은 예상되는 가중치 분포에 대해 사전에 있으므로 유효하지 않은 데이터 세트가있는 경우 시작하기에 좋습니다.
Dikran Marsupial
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.