로지스틱 회귀 모형을 과적 합할 수 있습니까? ROC 곡선 아래의 면적이 95 %보다 높으면 과적 합 될 가능성이 높지만 로지스틱 회귀 모형을 과적 합시킬 수 있다는 비디오를 보았습니다.
로지스틱 회귀 모형을 과적 합할 수 있습니까? ROC 곡선 아래의 면적이 95 %보다 높으면 과적 합 될 가능성이 높지만 로지스틱 회귀 모형을 과적 합시킬 수 있다는 비디오를 보았습니다.
답변:
예, 로지스틱 회귀 모형에 과적 합할 수 있습니다. 그러나 먼저, AUC (수신기 동작 특성 곡선 아래 영역)에 대한 요점을 말씀 드리고자합니다.
AUC 는 AUC가 수학적으로 U 통계량과 같기 때문에 무작위로 샘플링 된 양수 (또는 경우)가 음수 (또는 대조군)보다 더 높은 마커 값을 가질 확률입니다.
AUC 가 아닌 것은 표준화 된 예측 정확도 측정입니다. 고도의 결정 론적 사건은 95 % 이상의 단일 예측 변수 AUC를 가질 수 있으며 (예 : 제어 된 메카트로닉스, 로봇 공학 또는 광학), 일부 복잡한 다변량 물류 위험 예측 모델은 유방암 위험 예측과 같은 AUC가 64 % 이하입니다. 상당히 높은 수준의 예측 정확도.
검정력 분석과 마찬가지로 합리적인 AUC 값은 배경 지식과 연구 선구자의 목표를 수집하여 미리 지정됩니다. . 의사 / 엔지니어는 원하는 것을 설명하고 통계학자는 예측 모델의 목표 AUC 값을 분석합니다. 그런 다음 조사를 시작합니다.
로지스틱 회귀 모형에 과적 합하는 것이 실제로 가능합니다. 선형 의존성 (모델 행렬의 순위가 낮은 경우) 외에도 완벽한 일치 성을 가질 수 있습니다. 즉, Y에 대한 적합치 그림이 케이스와 컨트롤을 완벽하게 식별합니다. 이 경우 매개 변수가 수렴되지 않고 경계 공간 어딘가에있을 가능성이 ∞ 일 가능성이 있습니다. . 그러나 때때로 AUC는 우연히 1입니다.
모형에 너무 많은 예측 변수를 추가하여 발생하는 또 다른 유형의 편향이 있으며 이는 작은 표본 편향입니다. 일반적으로, 회귀 모델의 로그 확률 비율의 바이어스 된 계수 경향을 향해 때문에 교차비 제로 세포 수의 비의, 축소. 추론에 따르면, 이것은 조건부 로지스틱 회귀 분석을 사용하여 계층화 된 분석에서 혼란과 정밀 변수를 제어합니다. 그러나 예측 상으로는 SooL입니다. 당신이 더 일반화 예측 없다 페이지 » N π ( 1 - π가 ) , ( π = PROB ( Y =)는 "추세"가 아닌 "데이터"를 모델링했음을 보장하기 때문입니다. 이진 결과에 대한 고차원 (대형 ) 예측은 머신 러닝 방법으로 더 잘 수행됩니다. 선형 판별 분석, 부분 최소 제곱, 가장 가까운 이웃 예측, 부스팅 및 임의 포리스트를 이해하는 것이 시작하기에 매우 좋은 장소입니다.
간단히 말하면 .... 과적 합 로지스틱 회귀 모델은 큰 분산을 갖습니다. 변수 범위의 작은 변화에 대해 의사 결정 경계가 크게 변경됨을 의미합니다. 가장 적합한 이미지는 다음과 같은 이미지를 고려하십시오. middel 하나는 적합하지만 중간 편차와 중간 편차가 있습니다. 왼쪽은 적합하지 않지만 편차는 크지 만 분산은 적습니다. 한 가지 더 많은 것 _ 과적 합 된 회귀 모델은 너무 많은 기능을 가지고 있지만, 과적 합 모델은 더 적은 기능이 없습니다. 기능.
모집단이 유한 한 경우 전체 모집단에 적합하더라도 모든 방법으로 과적 합할 수 있습니다. 이 문제에 대한 두 가지 일반적인 해결책이 있습니다 : (1) 처벌 된 최대 우도 추정 (리지 회귀, 탄성 그물, 올가미 등) 및 (2) 베이지안 모델에서 유익한 사전 사용.
언제 정보가 제한적일 경우 (예 : 이진이거나 범주 형이지만 정렬되지 않은 경우) 정보가 부족할 때마다 표본 크기가 더 작기 때문에 과적 합이 더 심각합니다. 예를 들어 연속에서 크기가 100 인 샘플 이진에서 크기 250의 표본과 동일한 정보를 가질 수 있습니다. 통계적 검정력, 정밀도 및 과적 합을 목적으로합니다. 이진전혀 또는 전혀없는 현상을 가정하고 1 비트의 정보를 갖습니다. 많은 연속 변수에는 5 비트 이상의 정보가 있습니다.
초과 회귀가 불가능한 모델이 있습니까?
과적 합은 전체 모집단이 아닌 표본에 적합하기 때문에 근본적으로 발생합니다. 표본의 인공물은 모집단의 특징처럼 보일 수 있으며 과도하게 아프지 않습니다.
그것은 외부 타당성 문제와 유사합니다. 표본 만 사용하면 보이지 않는 실제 모집단에서 최고의 성능을 제공하는 모델을 얻으려고합니다.
물론, 어떤 모델 형식이나 절차는 다른 모델에 비해 과적 합 될 가능성이 높지만 과적 합에 의한 모델은 없습니다.
샘플 외부 검증, 정규화 절차 등도 과적 합을 막을 수 있지만은 총알은 없습니다. 실제로, 적합 모형을 기반으로 실제 예측을하는 데 대한 신뢰를 추정하려면 항상 어느 정도의 과적 합이 실제로 발생했다고 가정해야합니다.
어느 정도까지 차이가있을 수 있지만 홀드 아웃 데이터 세트에서 검증 된 모델조차도 홀드 아웃 데이터 세트에서 얻은 것과 일치하는 성능이 거의 저하되지 않습니다. 과적 합은 큰 원인이됩니다.
초과 피팅을 확인하기 위해 Roc와 함께하는 일은 교육 및 평가에서 데이터 세트를 무작위로 분리하고 해당 그룹 간의 AUC를 비교하는 것입니다. AUC가 훈련에서 "많이"(거의 규칙이 없음) 더 크면 과적 합이있을 수 있습니다.