서로 다른 "최상의"모델 중에서 가장 적합한 모델 선택


28

다른 방법으로 선택한 다른 모델 중에서 모델을 어떻게 선택합니까 (예 : 뒤로 또는 앞으로 선택)?

또한 parsimonious 모델은 무엇입니까?


나는 당신의 요점을 더 명확하게하기 위해 제목을 편집했습니다.

답변:


39

parsimonious 모델은 가능한 적은 예측 변수로 원하는 수준의 설명 또는 예측을 수행하는 모델입니다.

모델 평가의 경우 알고 자하는 것에 따라 다른 방법이 있습니다. 일반적으로 모델을 평가하는 두 가지 방법이 있습니다. 예측을 기반으로하고 현재 데이터에 대한 적합도를 기반으로합니다. 첫 번째 경우 모델이 새 데이터를 적절하게 예측하는지 알고 싶은 경우 두 번째 경우 모델이 현재 데이터의 관계를 적절하게 설명하는지 여부를 알고 싶습니다. 그것들은 서로 다른 두 가지입니다.

예측을 기반으로 평가

예측에 사용 된 모델을 평가하는 가장 좋은 방법은 교차 검증입니다. 아주 간단히, 예를 들어 데이터 세트를 자릅니다. 10 개의 서로 다른 조각 중 9 개를 사용하여 모델을 작성하고 10 번째 데이터 세트의 결과를 예측하십시오. 관찰 된 값과 예측 된 값 사이의 단순한 평균 제곱 차이는 예측 정확도에 대한 측정 값을 제공합니다. 이 열 번 반복하면 열 반복마다 평균 제곱 차이를 계산하여 표준 편차가있는 일반 값이됩니다. 이를 통해 표준 통계 기법 (t-test 또는 ANOVA)을 사용하여 두 모델의 예측 정확도를 다시 비교할 수 있습니다.

주제의 변형은 다음과 같이 정의 된 PRESS 기준 (예측 제곱합)입니다.

i=1n(YiY^i(i))2

어디 Y I ( - 내가 ) 모든 관찰 뺀 i 번째 값을 기반으로 모델을 이용하여 i 번째 관측 예측 된 값입니다. 이 기준은 데이터가 많지 않은 경우 특히 유용합니다. 이 경우 교차 검증 방식과 같이 데이터를 분할하면 데이터의 하위 집합이 너무 작아 안정적인 피팅을 수행 할 수 없습니다.Y^i(i)

적합도를 기준으로 평가

먼저 사용하는 모델 프레임 워크에 따라 이것이 다르다는 것을 먼저 말씀 드리겠습니다. 예를 들어, 가능성에 대한 비율 검정은 오류에 대해 고전 가우스를 사용할 때 일반화 된 가산 혼합 모델에서 작동 할 수 있지만 이항 변형의 경우에는 의미가 없습니다.

먼저보다 직관적 인 모델 비교 방법이 있습니다. Aikake 정보 기준 (AIC) 또는 베이지안 정보 기준 (BIC)을 사용하여 두 모델에 대한 적합도를 비교할 수 있습니다. 그러나 두 모델이 실제로 다르다는 것을 알려주는 것은 없습니다.

또 다른 하나는 Mallow의 Cp 기준입니다. 이는 모델을 가능한 모든 하위 모델과 신중하게 선택하여 모델에서 가능한 바이어스를 확인합니다. 참조 http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

비교하고자하는 모형이 중첩 모형 인 경우 (예 :보다 완벽한 모형의 모든 예측 변수 및 교호 작용이보다 완전한 모형에서도 발생하는 경우) 우도 비 검정 (또는 카이 제곱)의 형식으로 공식 비교를 사용할 수 있습니다. 또는 적절한 경우, 예를 들어 최소 제곱을 사용하여 피팅 된 간단한 선형 모형을 비교할 때 F 테스트). 이 테스트는 기본적으로 추가 예측 변수 또는 교호 작용이 모형을 실제로 개선하는지 여부를 제어합니다. 이 기준은 종종 정방향 또는 역방향 단계적 방법에 사용됩니다.

자동 모델 선택 정보

당신은 옹호자와이 방법의 적이 있습니다. 저는 개인적으로 자동 모델 선택에 찬성하지 않습니다. 특히 모델을 설명 할 때는 그렇지 않습니다.

  • 모든 모델에서 혼란스러운 상황을 적절히 처리했는지 확인해야합니다. 실제로 많은 데이터 세트에는 동시에 모델에 넣지 않아야하는 변수가 있습니다. 사람들은 종종 그것을 통제하는 것을 잊어 버립니다.
  • 자동 모델 선택은 가설을 테스트하지 않고 만드는 방법입니다. 자동 모델 선택에서 시작된 모델을 기반으로 한 모든 추론이 유효하지 않습니다. 그것을 바꿀 방법이 없습니다.
  • 다른 시작점에서 시작하여 단계별 선택이 완전히 다른 모델을 반환하는 많은 경우를 보았습니다. 이러한 방법은 안정적이 아닙니다.
  • 두 모델을 비교하는 통계 테스트에서 모델을 중첩해야하므로 적절한 규칙을 통합하는 것도 어렵습니다. 예를 들어 AIC, BIC 또는 PRESS를 사용하는 경우 차이가 실제로 중요한시기에 대한 컷오프는 임의로 선택됩니다.

기본적으로 미리 선택된 모델 세트를 비교할 때 더 많은 것을 볼 수 있습니다. 모형의 통계적 평가 및 가설 검정에 신경 쓰지 않으면 교차 검증을 사용하여 모형의 예측 정확도를 비교할 수 있습니다.

그러나 실제로 예측 목적으로 변수를 선택한 경우 Support Vector Machines, Neural Networks, Random Forests 등과 같은 다른 변수 선택 방법을 살펴볼 수 있습니다. 이들은 예를 들어 의학에서 훨씬 더 자주 사용되어 수천 개의 측정 된 단백질 중 어느 것이 암의 유무를 적절하게 예측할 수 있는지 알아냅니다. (유명한) 예를 들자면 :

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

이러한 모든 방법에는 연속 데이터에 대한 회귀 변형이 있습니다.


Mallows Cp와 이전 선택 중에서 어떤 모델을 선택 하시겠습니까? SSE가 낮고 계수가 큰 모델도 좋습니다?
tom

2
@tom : 사과와 오렌지를 비교하고 있습니다. 뒤로 선택은 방법이며 Mallows Cp는 기준입니다. Mallow의 Cp는 이전 선택의 기준으로 사용될 수 있습니다. 그리고 읽을 수 있듯이 뒤로 선택하지 않습니다. 변수를 선택해야 할 경우 적절한 방법을 사용합니다. Peter Flom이 언급 한 LASSO 및 LAR 방법은 언급하지 않았지만 시도해 볼 가치가 있습니다.
Joris Meys

xx1

2
@FrankHarrell 약간의 시뮬레이션은 p- 값 (F 테스트 또는 이에 상응하는 것으로 가정하고 있음)과 AIC 사이의 상관 관계가 존재하지 않는다는 것을 증명할 수 있습니다 (시뮬레이션에서 0.01). P- 값과 AIC 사이에는 아무런 관계가 없습니다. BIC와 Cp도 동일합니다. 또 다른 작은 시뮬레이션은 사용하는 기준에 따라 단계별 절차에서 매우 다른 결과를 얻는다는 것을 증명합니다. 따라서 Cp, AIC, BIC는 P- 값의 변환이 아닙니다. 사실, 수식을 보면 수학적 연결이나 변형을 가리킬 수 없습니다.
Joris Meys

1
@ 프랭크 하렐 (FrankHarrell)은 내가 프로를 단계적으로 옹호한다는 의미는 아닙니다. 그러나 당신의 진술은 적어도 조금 강력하게 공식화되었습니다.
Joris Meys

20

α=0.50


문제는 단계적인 문제가 아니라 다양한 접근법의 결과 중에서 가장 좋은 모델을 선택하는 것에 관한 것입니다.
Joris Meys

4
나는 "parsimony는 당신의 적"입니다.
Peter Flom-Monica Monica 복원

1
고마워 피터 Joris-다른 접근 방식 중에서 선택하는 것은 단계별 선택과 약간 다르지만 그리 많지 않습니다.
Frank Harrell

16

뒤로 또는 앞으로 선택을 사용하는 것이 일반적인 전략이지만 권장 할 수있는 전략은 아닙니다. 이러한 모델 구축의 결과는 모두 잘못되었습니다. p- 값이 너무 낮고 계수가 0에서 치우 치며 다른 관련 문제가 있습니다.

자동 변수 선택을 수행해야하는 경우 LASSO 또는 LAR과 같은 최신 방법을 사용하는 것이 좋습니다.

나는 이것에 관한 "Sanpping Stepwise : Stepwise and 유사한 방법이 나쁜 이유와 사용해야하는 것" 이라는 제목의 SAS 프레젠테이션을 작성했습니다 .

그러나 가능하다면 이러한 자동화 된 방법을 모두 피하고 주제 전문 지식에 의존합니다. 한 가지 아이디어는 10 가지 정도의 합리적인 모델을 생성하고 정보 기준에 따라 비교하는 것입니다. @Nick Sabbe는 그의 답변에 몇 가지를 나열했습니다.


2
기사 참조의 경우 +1 SAS로 코드를 작성하지는 않았지만 몇 달 전에 읽었으며이 문제를 훌륭하게 다루는 것으로 나타났습니다.
Josh Hemann

11

이에 대한 답변은 목표에 크게 좌우됩니다. 통계적으로 유의 한 계수를 찾고 있거나 새로운 관측 결과를 예측할 때 가능한 한 많은 분류 오류를 피할 수도 있고, 오 탐지율이 가장 적은 모형에 관심이있을 수도 있습니다. 아마도 데이터에 가장 가까운 곡선을 원할 것입니다.

위의 어느 경우 든 원하는 것을 측정 할 수있는 방법이 필요합니다. 다른 응용 분야에서 널리 사용되는 몇 가지 조치는 AUC, BIC, AIC, 잔류 오차,

각 모델의 목표와 가장 일치하는 측정 값을 계산 한 다음 각 모델의 '점수'를 비교합니다. 이것은 목표에 가장 적합한 모델로 이어집니다.

이러한 측정 중 일부 (예 : AIC)는 너무 많은 값을 사용하면 단순히 데이터를 과적 합할 수 있으므로 모델에서 0이 아닌 계수의 수에 추가 스트레스를가합니다. 인구). 모델이 '가능한 한 적은'변수를 보유해야하는 다른 이유가있을 수 있습니다 (예 : 예측을 위해 모든 변수를 측정하는 데 비용이 많이 드는 경우). 모델의 '단순성'또는 '작은 수의 변수'는 일반적으로 해당 용어를 "파 모사 니"라고합니다.

간단히 말하면, parsimoneous 모델은 너무 많은 변수를 보유하지 않는 '단순한'모델입니다.

이러한 유형의 질문 과 관련하여 주제 및 관련 문제에 대한 자세한 정보 는 훌륭한 통계 학습 요소 책을 참조하십시오 .


1
좋은 책을 추천합니다. 제가 추천 할 수있는 또 다른 방법은 선택 기준, 모델 선택 및 모델 비교에 대한 몇 가지 섹션이 포함 된 Applied Linear Statistical Models 입니다.
Joris Meys

-1

여기서 흥미로운 논의, 특히 더 많은 수의 계수와 변수를 가진 Parsimonious와 Model 간의 토론이 흥미로웠다.

내 교수님 닥터 스티브 박사는 더 나은 적합 / 큰 R ^ 2를 가진 다른 모델에 비해 낮은 R ^ 2를 가진 parsimonious 모델을 강조했습니다.

모든 물고기에 감사드립니다!

아카 쉬

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.