모형 선택 : 로지스틱 회귀


13

공변량 및 이진 결과 변수 가 있다고 가정 합니다. 이러한 공변량 중 일부는 여러 수준으로 범주 형입니다. 다른 것들은 연속적입니다. "최상의"모델을 어떻게 선택 하시겠습니까? 즉, 모형에 포함 할 공변량을 어떻게 선택합니까?x 1 , , x n ynx1,,xny

간단한 로지스틱 회귀 분석을 사용하여 각 공변량으로 각각 를 모델링 하고 유의미한 연관성을 갖는 것을 선택 하시겠습니까?y


1
아래 (또는 다른 사람들이 등장하는 경우) 내 대답 외에도 다음은 모델 선택에 대한 좋은 토론입니다 (논리 회귀 자체에 초점을 맞추지는 않았지만) stats.stackexchange.com/questions/18214/…
gung-Reinstate Monica

2
이 사이트에 대한 최근의 의견에서 @jthetzel을 인용하겠습니다. "좋은 질문이지만, 대부분 여기에 학기 동안의 대학 과정에서 공부 한 것이 있으며 일부는 공부를하면서 경력을 쌓았습니다." 사람과 함께 앉아서 "오늘 오후에 스와힐리어 가르쳐 줄래?" Gung이 그의 대답에서 좋은 지적을하지는 않습니다. 그것은 단지 광대 한 영토입니다.
rolando2

2
이것은 또한 매우 구체적인 질문이지만 일반적으로 나에게 조언을 포함하는 스레드입니다 : stats.stackexchange.com/questions/17068/… 또한 아래에 내 생각을 줄 것입니다.
Fomite

좋아, 나는 단지 AIC를 기준으로 사용할 것이라고 생각한다. 전체 모델은 AIC가 가장 낮습니다. 또한 AIC는 서로 상당히 다릅니다.
토마스

답변:


10

이것은 아마도 좋지 않은 일입니다. 모든 개별 공변량을 먼저 검토 한 다음 유의 한 모형을 사용하여 모형을 작성하는 것은 논리적으로 자동 검색 절차와 동일합니다. 이 방법은 직관적이지만이 절차에서 얻은 추론은 유효하지 않습니다 (예 : 실제 p- 값은 소프트웨어에서보고 한 것과 다릅니다). 초기 공변량 세트의 크기가 클수록 문제가 확대됩니다. 어쨌든이 작업을 수행하면 (그리고 불행히도 많은 사람들이 수행하는 경우) 결과 모델을 진지하게 받아 들일 수 없습니다. 대신 완전히 새로운 스터디를 실행하여 독립적 인 샘플을 수집하고 이전 모델을 피팅하여 테스트해야합니다. 그러나 여기에는 많은 리소스가 필요하며 프로세스에 결함이 있고 이전 모델이 불량한 것이므로많은 자원을 낭비 합니다.

더 나은 방법은 당신에게 실질적인 관심의 모델을 평가하는 것입니다. 그런 다음 모델 유연성 (예 : AIC)에 불이익을주는 정보 기준을 사용하여 해당 모델간에 조정하십시오. 로지스틱 회귀 분석의 경우 AIC는 다음과 같습니다.

AIC=2×ln(likelihood)+2k

여기서 는 해당 모델에 포함 된 공변량의 수입니다. AIC에 대해 가장 작은 값을 가진 모델을 원하며 모든 것이 동일합니다. 그러나 항상 그렇게 간단한 것은 아닙니다. 여러 모델이 AIC에 대해 유사한 값을 갖는 경우 가장 낮을 수 있지만주의하십시오. k

다른 소프트웨어가 다른 정보를 출력하기 때문에 여기에 AIC에 대한 완전한 공식을 포함시킵니다. 우연히 계산해야 할 수도 있고 최종 AIC 또는 그 사이의 모든 것을 얻을 수도 있습니다.


6
저는 AIC를 좋아하지만 2 개 이상의 사전 지정된 모델에서 AIC를 계산하면 다중성 문제가 발생합니다.
Frank Harrell

1
@FrankHarrell 좋은 팁!
복직 모니카

9

회귀 모델에서 어떤 변수를 사용할지, 여러 가지, 나쁘고, 끔찍한 것을 선택하는 방법 에는 여러 가지가 있습니다. Sander Greenland의 간행물을 찾아 볼 수도 있습니다. 그 중 다수는 변수 선택과 관련이 있습니다.

그러나 일반적으로 몇 가지 일반적인 "규칙"이 있습니다.

  • 소프트웨어 패키지로 제공되는 것과 같은 자동화 된 알고리즘은 아마도 잘못된 생각 일 것입니다.
  • gung이 제안한 것처럼 모델 진단 기법을 사용하면 변수 선택 선택을 평가할 수 있습니다.
  • 또한 주제 선택 전문 지식, 문헌 검색 자, 방향성 비순환 그래프 등의 조합을 사용하여 변수 선택 선택을 알려야합니다.

3
특히 포인트 1과 3을 넣으십시오. 모델 진단 기술로 인해 유형 I 오류를 유지하지 못할 수 있습니다.
Frank Harrell

3
@Epigrad를 넣으십시오. 그래도 한 점을 추가하겠습니다. 문제가 커지면 자동화 된 알고리즘이 매우 매력적입니다. 경우에 따라 모델 선택을 수행 할 수있는 유일한 방법 일 수도 있습니다. 사람들은 현재 1000 개의 잠재적 변수와 수백만 개의 관측치로 거대한 데이터 세트를 분석하고 있습니다. 1000 차원 직관에서 주제의 전문성은 어떻습니까? 그리고 당신이 찾은 것은 수동으로 (분석가와 함께) 수행하더라도 변수 선택을위한 몇 가지 지름길 규칙을 만들게 될 것입니다. 어려운 부분은 실제로 그러한 선택을 코딩하는 것입니다.
확률론

1
@probabilityislogic 나는 그것에 동의합니다. 솔직히 전통적인 기술은 매우 큰 데이터 세트에 적합하지 않다고 생각하지만 더 적절한 기술로 돌아가는 경향이 나에게 경고합니다. 자동화 된 알고리즘이 10 개의 변수로 데이터 세트를 바이어스 할 수 있다면 10,000으로 변수를 바이어스 할 수 없습니다. 현재 일부 분석에서 빅 데이터를 수집 하는 데 중점을두고 있기 때문에 다소 번거 롭습니다.
Fomite

2
깊은 아이러니 트위스트에 @probabilityislogic는 지금> 자신이 잠재적 인 변수의 1000의 10 초 동안 잘으로 데이터 집합 작업을 찾을 <.
매개물

2

"최상의"모델을 어떻게 선택 하시겠습니까?

이 질문에 대답하기위한 정보가 충분하지 않습니다. y 에 인과 적 영향을 미치 려면 혼란에 대해 알려진 것을 반영하는 회귀를 구현해야합니다. 예측을 원한다면 AIC가 합리적인 접근법이 될 것입니다.

이러한 접근 방식은 동일하지 않습니다. 문맥은 변수를 선택하는 (다수의) 방법 중 어느 것이 더 적합하거나 적을지를 결정합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.