소개 :
고전적인 "큰 p, 작은 n 문제"의 데이터 집합이 있습니다. 사용 가능한 샘플 수는 n = 150이고 가능한 예측 변수 수는 p = 400입니다. 결과는 연속 변수입니다.
가장 중요한 "설명자", 즉 결과를 설명하고 이론을 세우는 데 가장 적합한 후보자를 찾고 싶습니다.
이 주제에 대한 연구 후 LASSO와 Elastic Net이 일반적으로 큰 p, 작은 n의 경우에 사용된다는 것을 알았습니다. 내 예측 변수 중 일부는 서로 밀접하게 관련되어 있으며 중요도 평가에서 그룹화를 유지하고 싶습니다. Elastic Net을 . 회귀 계수의 절대 값을 중요도의 척도로 사용할 수 있다고 가정합니다 (잘못되면 수정하십시오. 데이터 세트가 표준화되었습니다).
문제:
샘플 수가 적을 때 어떻게 안정적인 모델을 얻을 수 있습니까?
현재 접근 방식은 평균 MSE 점수가 10 배인 교차 검증으로 데이터 세트의 90 %에 대한 그리드 검색에서 최상의 튜닝 매개 변수 (람다 및 알파)를 찾는 것입니다. 그런 다음 전체 90 %의 데이터 세트에서 최상의 튜닝 매개 변수로 모델을 학습시킵니다. 데이터 세트의 10 % (15 개 샘플 만 고려)에서 R 제곱을 사용하여 모델을 평가할 수 있습니다.
이 절차를 반복적으로 실행하면서 R 제곱 평가에서 큰 차이가 있음을 발견했습니다. 또한 0이 아닌 예측 변수의 수와 계수가 다릅니다.
예측 변수의 중요성을보다 안정적으로 평가하고 최종 모델 성능을보다 안정적으로 평가하려면 어떻게해야합니까?
절차를 반복하여 여러 모델을 만든 다음 평균 회귀 계수를 사용할 수 있습니까? 또는 모형에서 예측 변수의 발생 횟수를 중요도 점수로 사용해야합니까?
현재, 나는 0-50이 아닌 예측 변수를 얻습니다. 더 나은 안정성을 위해 여러 예측 변수를 더 세게 처벌해야합니까?