변수의 p- 값 또는 표준 편차를 계산하는 작업이 여전히 진행 중이기 때문에 올가미 모델에 들어가는 예측 변수에 '중요도'또는 '중요도'를 표시 할 수 없다는 다른 게시물을 얻었습니다.
이러한 추론 하에서, 올가미 모델에서 배제 된 변수가 '무의미한'또는 '무의미한'이라고 말할 수 없다고 주장하는 것이 옳은가?
그렇다면 올가미 모델에 제외되거나 포함 된 변수에 대해 실제로 무엇을 주장 할 수 있습니까? 필자의 경우, 난도를 줄이고 오류 곡선의 평균을 구하기 위해 10 배 교차 검증을 100 번 반복하여 튜닝 매개 변수 람다를 선택했습니다.
업데이트 1 : 아래 제안을 따라 부트 스트랩 샘플을 사용하여 올가미를 다시 실행했습니다. 나는 100 개의 샘플 (이것은 내 컴퓨터 전원으로 밤새 관리 할 수있는 양)을 가지고 있었고 몇 가지 패턴이 나타났습니다. 내 41 개 변수 중 2 개가 95 % 이상, 3 개 변수가 90 % 이상, 5 개 변수가 85 % 이상 모델에 입력되었습니다. 이 5 개의 변수는 원래 샘플로 모델을 실행할 때 모델에 들어간 9 개의 변수 중 가장 높은 계수 값을 가진 변수입니다. 1000 부트 스트랩 샘플로 올가미를 실행하고 해당 패턴이 유지되면 결과를 제시하는 가장 좋은 방법은 무엇입니까?
부트 스트랩 샘플 1000 개가 충분히 들립니까? (내 샘플 크기는 116입니다)
모든 변수와 모델에 얼마나 자주 변수를 입력하고 더 자주 입력하는 변수가 더 중요 할 것이라고 주장해야합니까?
내가 주장 할 수있는 한 그런가요? 진행중인 작업이므로 (위 참조) 컷오프 값을 사용할 수 없습니다.
업데이트 2 : 아래 제안에 따라 다음을 계산했습니다. 원래 모델의 변수의 평균 78 %가 100 부트 스트랩 샘플에 대해 생성 된 모델에 입력되었습니다. 반면에, 다른 방법으로는 41 %에 불과합니다. 이는 부트 스트랩 샘플에 대해 생성 된 모델이 원래 모델 (9)보다 훨씬 더 많은 변수 (평균 17)를 포함하는 경향이 있다는 사실과 큰 관련이 있습니다.
업데이트 3 : 부트 스트랩 및 몬테 카를로 시뮬레이션에서 얻은 결과를 해석하는 데 도움이된다면 이 다른 게시물을 살펴보십시오 .