조금 더 많은 정보; 한다고 가정
- 선택할 변수 수와 LARS 절차에서 계수가 0이 아닌 변수를 정확히 갖는 것과 같은 복잡성 패널티를 미리 설정 한 경우,
- 계산 비용은 문제가되지 않습니다 (총 변수 수는 작습니다 (예 : 50)).
- 모든 변수 (y, x)는 연속적입니다.
LARS 모델 (즉, LARS 피팅에서 0이 아닌 계수를 갖는 변수의 OLS 피팅)은 어떤 설정에서 계수가 동일하지만 철저한 검색 (la regsubsets ())을 통해 찾은 모델과 가장 다릅니 까?
편집 : '실제'계수가 0 인 변수 중 10 개 (및 모든 기능이 서로 밀접하게 관련되어 있음)를 제외하고 표준 가우스에서 가져온 실제 계수와 함께 50 개의 변수와 250 개의 관측치를 사용하고 있습니다. 선택된 두 변수 세트의 차이가 미세하기 때문에 이러한 설정은 분명히 좋지 않습니다. 이것은 실제로 가장 큰 차이점을 얻기 위해 어떤 유형의 데이터 구성을 시뮬레이션해야하는지에 대한 질문입니다.