복잡한 측량 데이터에서 LASSO 이후 교차 검증


11

지속적인 결과와 함께 LASSO를 사용하는 일부 후보 예측 변수에서 모델 선택을 시도하고 있습니다. 목표는 LASSO로부터 튜닝 파라미터의 솔루션 경로를 얻은 후에 K- 폴드 교차 검증에 의해 수행 될 수있는 최고의 예측 성능을 갖는 최적 모델을 선택하는 것이다. 여기서 문제는 데이터가 군집 샘플링 및 계층화가있는 복잡한 다단계 조사 설계 (NHANES)에서 나온다는 것입니다. glmnetR에서 샘플링 가중치를 취할 수 있기 때문에 추정 부분은 어렵지 않습니다 . 그러나 교차 검증 부분은 이제 더 이상 관측치가 더 이상 iid가 아니기 때문에 명확하지 않으며 절차는 유한 모집단을 나타내는 가중치를 어떻게 계산할 수 있습니까?

그래서 내 질문은 :

1) 최적의 튜닝 파라미터를 선택하기 위해 복잡한 측량 데이터로 K- 폴드 교차 검증을 수행하는 방법은 무엇입니까? 보다 구체적으로, 샘플 데이터를 교육 및 검증 세트로 적절히 분할하는 방법은 무엇입니까? 예측 오차의 추정치를 정의하는 방법은 무엇입니까?

2) 최적의 튜닝 파라미터를 선택하는 다른 방법이 있습니까?


리샘플링 (예 : 부트 스트랩)이 k fold cv 대신 더 적합한 절차일까요?
g3o2

Lumley 는 "부트 스트랩에 대한 이론은 각 지층 내에서 등 확률 샘플링의 상황에 대해서만 개발되었으므로 임의 확률로 얼마나 잘 작동하는지는 명확하지 않습니다."라고 경고합니다. (28) NHANES 데이터는 지층 내에서 동일 확률 샘플링이없는 것으로 보입니다.
Dan Hicks

OP에서이 작은 세부 사항을 아는 것이 흥미로울 것입니다. 다단계 클러스터와 계층화 된 샘플링에 대해 그렇게 복잡한 것을 보지 마십시오.
g3o2

@ Dan Hicks : 리샘플링 할 때 정확히 동일한 샘플 계획의 여러 인스턴스를 복제하는 것이 실제로 중요하지 않다고 생각합니다.
g3o2

여기에 설명 된 방법과 같은 것을 사용하십니까? amstat.tandfonline.com/doi/pdf/10.1080/01621459.1988.10478591 (또는 더 최근의 것입니까?) 그 아이디어를 좀 더 자세하게 답으로 쓰고 싶다면, 현상금을 줄 것입니다.
Dan Hicks

답변:


2

자세한 답변이 없으며 읽을만한 몇 가지 지침 만 있습니다.

복잡한 조사 LASSO 에서 McConville (2011) 을 살펴보면 LASSO 사용이 데이터에 적합한 지 확인할 수 있습니다. 그러나 변수 선택을 위해서만 LASSO를 수행하고 나머지 변수에 다른 것을 맞추는 경우 큰 문제가 아닐 수 있습니다.

복잡한 조사 데이터를 사용한 교차 검증 (LASSO는 아님 )을 위해 McConville은 Opsomer & Miller (2005) 및 You (2009) 도 인용합니다 . 그러나 그들의 방법은 K-fold가 아닌 leave-one-out CV를 사용하는 것으로 보입니다.

복잡한 측량으로 구현하기가 더 쉬워야합니다. 데이터를 적절하게 분할하는 방법에 대한 우려가 적습니다. (반면, K-fold보다 실행하는 데 시간이 오래 걸릴 수 있습니다. 목표가 모델 선택 인 경우 큰 샘플의 경우 one-out-out이 K-fold보다 나빠질 수 있습니다.)


0

OP로 편집 : 복잡한 측량 데이터에는 적용되지 않습니다.

cv.glmet 함수는 필요한 교차 검증을 수행하는 데 도움이 될 수 있습니다. lambda.min 값은 CV 오류가 최소 인 λ 값입니다. lambda.1se는 최상의 모델 (lambda.min)보다 단순하지만 최상의 모델의 1 표준 오류 내에 오류가있는 검색의 λ 값을 나타냅니다.

  1. 알파 및 람다 모두에서 선택할 수있는 값의 그리드를 선택하십시오.

그리드 <-expand.grid (.alpha = (1:10) * 0.1, λ = (1:10) * 0.1)

  1. 모델의 제어 파라미터를 설정하십시오. 아래의 열차 제어는 10 회 반복 동안 cv를 반복합니다. 사용 가능한 방법을 살펴보고 현재 시나리오에 적합한 방법을 선택하십시오.

cv.glmmod <-cv.glmnet (xTrain, y = yTrain, alpha = grid .alpha .lambda).alpha,>=T,lambda=grid

lambda.min 값은 아래와 같이 모델 자체에서 액세스 할 수 있습니다.

cv.glmmod $ lambda.min


1
glmnet을 사용하여 iid 데이터에 대해 교차 유효성 검사를 수행하는 방법을 알고 있습니다. 상관 된 복잡한 설문 조사 데이터에 대해 묻고있었습니다.
aenima
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.