올가미 모델에서 제외되거나 올가미 모델에 포함 된 변수를 해석하는 방법은 무엇입니까?


9

변수의 p- 값 또는 표준 편차를 계산하는 작업이 여전히 진행 중이기 때문에 올가미 모델에 들어가는 예측 변수에 '중요도'또는 '중요도'를 표시 할 수 없다는 다른 게시물을 얻었습니다.

이러한 추론 하에서, 올가미 모델에서 배제 된 변수가 '무의미한'또는 '무의미한'이라고 말할 수 없다고 주장하는 것이 옳은가?

그렇다면 올가미 모델에 제외되거나 포함 된 변수에 대해 실제로 무엇을 주장 할 수 있습니까? 필자의 경우, 난도를 줄이고 오류 곡선의 평균을 구하기 위해 10 배 교차 검증을 100 번 반복하여 튜닝 매개 변수 람다를 선택했습니다.

업데이트 1 : 아래 제안을 따라 부트 스트랩 샘플을 사용하여 올가미를 다시 실행했습니다. 나는 100 개의 샘플 (이것은 내 컴퓨터 전원으로 밤새 관리 할 수있는 양)을 가지고 있었고 몇 가지 패턴이 나타났습니다. 내 41 개 변수 중 2 개가 95 % 이상, 3 개 변수가 90 % 이상, 5 개 변수가 85 % 이상 모델에 입력되었습니다. 이 5 개의 변수는 원래 샘플로 모델을 실행할 때 모델에 들어간 9 개의 변수 중 가장 높은 계수 값을 가진 변수입니다. 1000 부트 스트랩 샘플로 올가미를 실행하고 해당 패턴이 유지되면 결과를 제시하는 가장 좋은 방법은 무엇입니까?

  • 부트 스트랩 샘플 1000 개가 충분히 들립니까? (내 샘플 크기는 116입니다)

  • 모든 변수와 모델에 얼마나 자주 변수를 입력하고 더 자주 입력하는 변수가 더 중요 할 것이라고 주장해야합니까?

  • 내가 주장 할 수있는 한 그런가요? 진행중인 작업이므로 (위 참조) 컷오프 값을 사용할 수 없습니다.

업데이트 2 : 아래 제안에 따라 다음을 계산했습니다. 원래 모델의 변수의 평균 78 %가 100 부트 스트랩 샘플에 대해 생성 된 모델에 입력되었습니다. 반면에, 다른 방법으로는 41 %에 불과합니다. 이는 부트 스트랩 샘플에 대해 생성 된 모델이 원래 모델 (9)보다 훨씬 더 많은 변수 (평균 17)를 포함하는 경향이 있다는 사실과 큰 관련이 있습니다.

업데이트 3 : 부트 스트랩 및 몬테 카를로 시뮬레이션에서 얻은 결과를 해석하는 데 도움이된다면 다른 게시물을 살펴보십시오 .

답변:


10

당신의 결론은 맞습니다. 두 가지 측면을 생각하십시오.

  1. 효과를 감지하는 통계적 힘. 힘이 매우 높지 않으면 큰 실제 효과조차 놓칠 수 있습니다.
  2. 신뢰성 : 올바른 기능을 찾을 가능성이 높습니다.

최소한 4 가지 주요 고려 사항이 있습니다.

  1. 동일한 데이터 세트를 사용하여이 방법을 재현 할 수 있습니까?
  2. 동일한 데이터 세트를 사용하는 다른 사람들이이 방법을 재현 할 수 있습니까?
  3. 다른 데이터 세트를 사용하여 결과를 재현 할 수 있습니까?
  4. 결과가 신뢰할 만합니까?

예측보다 더 많은 것을하고 싶지만 결과 예측에 어떤 기능이 중요한지에 대한 결론을 내리고 자 할 때, 3.와 4.가 중요합니다.

3을 해결했습니다 (이 목적을 위해 100 개의 부트 스트랩이면 충분합니다). 개별 기능 포함 비율 외에도 부트 스트랩 기능 세트와 원래 선택한 기능 세트 사이의 평균 절대 '거리'를 알아야합니다. 예를 들어, 부트 스트랩 샘플에서 발견 된 전체 샘플에서 감지 된 평균 피처 수는 얼마입니까? 원래 분석에서 찾은 부트 스트랩 샘플에서 선택된 평균 기능 수는 얼마입니까? 부트 스트랩이 원래 기능 세트와 정확히 일치하는 비율은 얼마입니까? 부트 스트랩이 원본과 정확히 일치하는 기능 중 하나에 속하는 비율은 얼마입니까? 두 가지 기능?

전체 결론을 내리는 데 컷오프를 사용해야한다고 말하는 것은 적절하지 않습니다.

파트 4와 관련하여,이 중 어느 것도 프로세스의 신뢰성, 즉 기능 세트가 '참'기능 세트에 얼마나 가까운 지 다루지 않습니다. 이를 해결하기 위해 원래 샘플 올가미 결과를 '진실'로 취하고 가정 된 오류 구조를 사용하여 수백 번 새로운 응답 벡터를 시뮬레이션하는 Monte-Carlo 재 시뮬레이션 연구를 수행 할 수 있습니다. 각 재 시뮬레이션마다 원래 전체 예측 변수 행렬과 새 반응 벡터에서 올가미를 실행하고 선택한 올가미 기능 세트가 시뮬레이션 한 진실과 얼마나 가까운 지 결정하십시오. 전체 후보 예측 변수 집합에 대한 재 시뮬레이션 조건은 초기 적합 모델 (및 올가미의 경우 선택된 예측 변수 집합)의 계수 추정값을 시뮬레이션하기 편리한 '진실'로 사용합니다.

의 새로운 실현을 시뮬레이션하려면 Y 원래의 주어진 X 행렬과 이제 실제 회귀 계수를 사용하면 잔차 분산을 사용하고 평균을 평균 0으로 정규화한다고 가정하거나 더욱 경험적으로 원래 피팅에서 모든 잔차를 저장하고 부트 스트랩 샘플을 사용하여 알려진 선형 예측 변수에 잔차를 추가 할 수 있습니다 Xβ각 시뮬레이션마다. 그런 다음 원래 모델링 프로세스가 처음부터 실행되고 (최적의 페널티 선택 포함) 새 모델이 개발됩니다. 100 회 정도 반복 할 때마다 새 모델을 시뮬레이션중인 실제 모델과 비교하십시오.

다시 말하지만, 이는 공정의 신뢰성, 즉 '진정한'기능을 찾고 다음과 같은 β.

언제 Y 이항은 잔차를 처리하는 대신 선형 예측 변수를 계산하는 것입니다. Xβ 원래 맞춤 (예 : 올가미 사용)에서 로지스틱 변환을 수행하고 각 Monte Carlo 시뮬레이션에 대해 새 Y벡터를 신선하게 맞 춥니 다. R에서는 예를 들어 말할 수 있습니다.

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)

3
당신은 선불이라고 말했고 나는 물어야했다. 사용 가능한 정보가 지원하는 것 이상으로 봉투를 밀고 있습니다. 이런 식으로 생각하십시오. 이항 결과의 경우 이항 로지스틱 모형의 절편 만 추정하려면 최소 96 개의 관측치가 있어야합니다. 그런 다음 후보 예측 변수 당 약 15 개의 이벤트가 필요합니다 (벌칙을 적용하지 않은 경우). 향후 데이터 세트에서 프로세스가 검증 될 가능성은 상당히 적습니다. 그것을 보는 또 다른 방법은이 모든 토론이 더 중요하다는 것입니다 (더 큰 것을 갖는 것에 비해N).
Frank Harrell

1
나는 부트 스트랩을 언급하지 않았다. 32 개의 이벤트 만있을 때 수십 개의 후보 변수에서 무엇을 배울 수 있는지 언급하고있었습니다.
Frank Harrell

3
올가미는 대부분의 방법보다 적합하지만 이러한 작은 샘플 크기에서는 신뢰성이 떨어집니다. 2 차 (리지; L2) 페널티 대신 올가미를 사용하여 parsimony를 요구합니다. 의심 할 여지없이 이차 페널티를 사용하고 파마 모니를 요구하지 않으면 서 더 나은 예측 차별을받을 수 있습니다. 또는 심각한 데이터 축소를 수행하십시오 (Y) 그런 다음 처벌받지 않은 일반 모델에 적합합니다.
Frank Harrell

1
정확한 설정에서 방법의 실제 신뢰성을 확인하기 위해 제안한 재 시뮬레이션 실험을 수행하십시오.
Frank Harrell

2
이 토론에 서명해야합니다. 귀하의 질문에 대한 기본 답변은 기본 R 프로그래밍이며 biostat.mc.vanderbilt.edu/rms의 간단한 시뮬레이션을 살펴보십시오 .
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.