로지스틱 회귀 모델 과적 합


28

로지스틱 회귀 모형을 과적 합할 수 있습니까? ROC 곡선 아래의 면적이 95 %보다 높으면 과적 합 될 가능성이 높지만 로지스틱 회귀 모형을 과적 합시킬 수 있다는 비디오를 보았습니다.


1
어떤 비디오를 말하거나 최소한 더 많은 맥락을 제시 할 수 있습니까?
Glen_b-복지 주 모니카

2
물론 @Glen_b, 비디오는 다음과 같습니다. link 댓글은 40 분입니다. 그것은 ROC가 AUC가 0.5와 0.5 사이에있을 때 그것은 나쁘다는 것입니다. 0,6에서 0,7 사이이면 평균보다 낮습니다. 0,7에서 0,75 사이라면 평균 / 양호입니다. 0,75와 0,8 사이에서 좋습니다. 0,8에서 0,9 사이이면 Excelent입니다. 0,9보다 높으면 의심스럽고 0,95보다 높으면 과잉 적합합니다. 나는 그 설명이 이해하기 매우 쉽다는 것을 알았지 만 맞습니까? 나는 그 생각을 백업하기 위해 무언가를 찾고 있지만 찾지 못했습니다.
carlosedubarreto

@AdamO가 전한 Glen_B의 설명은 비디오에서 본 설명이 정확하지는 않지만 Adam의 설명을 오해했을 수 있습니다. 이 Statiscs 재료는 매우 복잡하지만 깊이 파고 드는 것은 정말 즐거운 일입니다. :)
carlosedubarreto

나는 AdamO의 설명이 좋다고 생각하지만 (나는 그것을 공표했다) 질문은 영구적 인 자원이어야한다. 나중의 독자 (예 : 비슷한 질문을하는 사람)는 무슨 말을했는지 알기를 원할 수 있습니다. 의견에 대한 귀하의 설명은 대부분의 사람들에게 충분한 컨텍스트를 제공하며 링크는 나머지 사람들을 위해 할 것이라고 생각합니다. 감사합니다! 질문을 더 유용하게 만들었습니다.
Glen_b-복지 주 모니카

@Glen_b에게 많은 감사를드립니다. 저는이 훌륭한 도구 (이 포럼)를 사용하는 법을 배우고 있습니다. 새로운 질문을 할 때 팁을 명심하겠습니다.
carlosedubarreto

답변:


35

예, 로지스틱 회귀 모형에 과적 합할 수 있습니다. 그러나 먼저, AUC (수신기 동작 특성 곡선 아래 영역)에 대한 요점을 말씀 드리고자합니다.

AUC AUC가 수학적으로 U 통계량과 같기 때문에 무작위로 샘플링 된 양수 (또는 경우)가 음수 (또는 대조군)보다 더 높은 마커 값을 가질 확률입니다.

AUC 가 아닌 것은 표준화 된 예측 정확도 측정입니다. 고도의 결정 론적 사건은 95 % 이상의 단일 예측 변수 AUC를 가질 수 있으며 (예 : 제어 된 메카트로닉스, 로봇 공학 또는 광학), 일부 복잡한 다변량 물류 위험 예측 모델은 유방암 위험 예측과 같은 AUC가 64 % 이하입니다. 상당히 높은 수준의 예측 정확도.

검정력 분석과 마찬가지로 합리적인 AUC 값은 배경 지식과 연구 선구자의 목표를 수집하여 미리 지정됩니다. . 의사 / 엔지니어는 원하는 것을 설명하고 통계학자는 예측 모델의 목표 AUC 값을 분석합니다. 그런 다음 조사를 시작합니다.

로지스틱 회귀 모형에 과적 합하는 것이 실제로 가능합니다. 선형 의존성 (모델 행렬의 순위가 낮은 경우) 외에도 완벽한 일치 성을 가질 수 있습니다. 즉, Y에 대한 적합치 그림이 케이스와 컨트롤을 완벽하게 식별합니다. 이 경우 매개 변수가 수렴되지 않고 경계 공간 어딘가에있을 가능성이 ∞ 일 가능성이 있습니다. . 그러나 때때로 AUC는 우연히 1입니다.

모형에 너무 많은 예측 변수를 추가하여 발생하는 또 다른 유형의 편향이 있으며 이는 작은 표본 편향입니다. 일반적으로, 회귀 모델의 로그 확률 비율의 바이어스 된 계수 경향을 향해 때문에 교차비 제로 세포 수의 비의, 축소. 추론에 따르면, 이것은 조건부 로지스틱 회귀 분석을 사용하여 계층화 된 분석에서 혼란과 정밀 변수를 제어합니다. 그러나 예측 상으로는 SooL입니다. 당신이 더 일반화 예측 없다 페이지 » N π ( 1 - π가 ) , ( π = PROB ( Y =2βpnπ(1π)π=Prob(Y=1))는 "추세"가 아닌 "데이터"를 모델링했음을 보장하기 때문입니다. 이진 결과에 대한 고차원 (대형 ) 예측은 머신 러닝 방법으로 더 잘 수행됩니다. 선형 판별 분석, 부분 최소 제곱, 가장 가까운 이웃 예측, 부스팅 및 임의 포리스트를 이해하는 것이 시작하기에 매우 좋은 장소입니다.p


y

π

목표로하는 적절한 AUC 값을 어떻게 결정합니까?
Kevin H. Lin

1
@ KevinH.Lin 그것은 질문의 본질에 달려 있습니다. 상황에 맞는 적절한 지식을 더 많이 통합할수록 더 좋습니다. 이는 모델이 평가하는 질병 또는 상태의 기본 유병률 또는 부담, 기존 (경쟁) 모델의 성능, 비용 효율성 트레이드 오프 및 새로운 관행 및 / 또는 권장 사항 채택과 관련된 정책입니다. 그것에 대해 아무것도 흑인과 백인은 아니지만 많은 것들과 마찬가지로 통계 전문가로서 당신이 미리 지정한 AUC 가치를 찬성하고 설득하기 위해 설득력있게 논쟁해야합니다.
AdamO

1
@ KevinH.Lin 올바른 대답이 당신이 원하는 것만 큼 명확하고 간결하다고 생각하지 않습니다. "어떤 차를 사야합니까?"라고 묻는 것과 같습니다. :) 관심있는 관련 연구 분야에서 AUC를 탐구 한 기사를 검토하는 것이 좋습니다. 나는 유방암에 대한 위험 예측 모델에서 주로 일했으며 Tice, Gail 및 Barlow의 작업을 통해 AUC 0.65는 1-20 건 미만의 유병률을 가진 인구 기반 예측 모델에 매우 매력적이라는 것을 알았습니다. RR btn 1.5 및 3을 갖는 7 가지 위험 요소를 사용하여 위험에 처한 5,000 명당 1 인당
AdamO

6

간단히 말하면 .... 과적 합 로지스틱 회귀 모델은 큰 분산을 갖습니다. 변수 범위의 작은 변화에 대해 의사 결정 경계가 크게 변경됨을 의미합니다. 가장 적합한 이미지는 다음과 같은 이미지를 고려하십시오. middel 하나는 적합하지만 중간 편차와 중간 편차가 있습니다. 왼쪽은 적합하지 않지만 편차는 크지 만 분산은 적습니다. 한 가지 더 많은 것 _ 과적 합 된 회귀 모델은 너무 많은 기능을 가지고 있지만, 과적 합 모델은 더 적은 기능이 없습니다. 기능. underfit, justfit 및 overfit 로지스틱 resion 모델을 보여주는 이미지.  블루 컬러 마커가 결정 경계를 보이고 있습니다.


8
이미지에 대한 참조를 추가하십시오 (실제로 Andrew Ng의 과정).
Alexander Rodin

5

모집단이 유한 한 경우 전체 모집단에 적합하더라도 모든 방법으로 과적 합할 수 있습니다. 이 문제에 대한 두 가지 일반적인 해결책이 있습니다 : (1) 처벌 된 최대 우도 추정 (리지 회귀, 탄성 그물, 올가미 등) 및 (2) 베이지안 모델에서 유익한 사전 사용.

언제 와이정보가 제한적일 경우 (예 : 이진이거나 범주 형이지만 정렬되지 않은 경우) 정보가 부족할 때마다 표본 크기가 더 작기 때문에 과적 합이 더 심각합니다. 예를 들어 연속에서 크기가 100 인 샘플와이 이진에서 크기 250의 표본과 동일한 정보를 가질 수 있습니다. 와이통계적 검정력, 정밀도 및 과적 합을 목적으로합니다. 이진와이전혀 또는 전혀없는 현상을 가정하고 1 비트의 정보를 갖습니다. 많은 연속 변수에는 5 비트 이상의 정보가 있습니다.


4

초과 회귀가 불가능한 모델이 있습니까?

과적 합은 전체 모집단이 아닌 표본에 적합하기 때문에 근본적으로 발생합니다. 표본의 인공물은 모집단의 특징처럼 보일 수 있으며 과도하게 아프지 않습니다.

그것은 외부 타당성 문제와 유사합니다. 표본 만 사용하면 보이지 않는 실제 모집단에서 최고의 성능을 제공하는 모델을 얻으려고합니다.

물론, 어떤 모델 형식이나 절차는 다른 모델에 비해 과적 합 될 가능성이 높지만 과적 합에 의한 모델은 없습니다.

샘플 외부 검증, 정규화 절차 등도 과적 합을 막을 수 있지만은 총알은 없습니다. 실제로, 적합 모형을 기반으로 실제 예측을하는 데 대한 신뢰를 추정하려면 항상 어느 정도의 과적 합이 실제로 발생했다고 가정해야합니다.

어느 정도까지 차이가있을 수 있지만 홀드 아웃 데이터 세트에서 검증 된 모델조차도 홀드 아웃 데이터 세트에서 얻은 것과 일치하는 성능이 거의 저하되지 않습니다. 과적 합은 큰 원인이됩니다.


0

초과 피팅을 확인하기 위해 Roc와 함께하는 일은 교육 및 평가에서 데이터 세트를 무작위로 분리하고 해당 그룹 간의 AUC를 비교하는 것입니다. AUC가 훈련에서 "많이"(거의 규칙이 없음) 더 크면 과적 합이있을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.