로지스틱 회귀 분석을 수행 할 때 불균형 샘플이 중요합니까?


81

저는 20 : 1의 경험 법칙 (총 7 개의 후보 예측 변수에 대해 상당히 큰 표본 (N = 374))을 고려하여 적절한 표본을 가지고 있다고 생각합니다.

내 문제는 다음과 같습니다. 내가 사용하는 예측 변수 집합에 관계없이 분류는 100 %의 특이도 및 0 %의 감도보다 나아지지 않습니다. 그러나 불만족 스럽지만 후보 예측 변수 세트 (내가 벗어날 수없는)를 고려할 때 실제로 이것이 최상의 결과 일 수 있습니다.

그러나 나는 도울 수 없었지만 더 잘할 수 있다고 생각했기 때문에 종속 변수의 범주가 거의 4 : 1로 불균일하게 균형 잡힌 것을 알았습니다. 보다 균형 잡힌 서브 샘플이 분류를 개선 할 수 있습니까?


5
이것이 어떻게 될 수 있을지는 상상하기 어렵습니다. 아마도 당신은 예측 확률을 0.5로 자르고 있습니까? 그렇다면 컷오프를 변경하십시오.
Aniko

4
ROC- 커브 아래 영역은 .585이며 다소 열악한 결과입니다. 이것은 특이성 / 민감성 트레이드 오프가 가치가있는 컷오프 값이 실제로 존재하지 않음을 의미합니다. 컷오프를 조정하면 분류가 크게 향상되지 않습니다. 민감도를 높이는만큼 특이도를 낮추기 때문입니다.
Michiel

3
변수 계수가 크게 다른 점이 있습니까 (예 : 5 개 이상의 표준 오류)? 문제가 아닌 경우 변수 세트에 대한 설명이 많지 않을 수 있습니다. 0
probabilityislogic

2
또한 좋은 예측을 할 때의 표본 크기는 실제로 표본화 된 개인의 수가 아니라 예측 변수의 고유 한 패턴의 수입니다. 예를 들어, 두 수준을 가진 단일 범주 형 예측 변수가있는 모형은 표본에 수백만의 사람이 있더라도 두 개의 모수 (각 범주에 대해 하나씩)를 갖는 로지스틱 회귀 모형에만 적합 할 수 있습니다.
probabilityislogic

답변:


75

훈련 세트의 균형

로지스틱 회귀 모형의 경우 불균형 훈련 데이터는 모형 절편의 추정치에만 영향을 미칩니다 (물론 예측 된 모든 확률이 왜곡되어 예측이 손상됨). 다행스럽게도 요격 보정은 간단합니다. 0과 1의 실제 비율을 알고 있거나 추측 할 수 있고 훈련 세트의 비율을 알고 있으면 요격에 희귀 한 이벤트 수정을 적용 할 수 있습니다. 자세한 내용은 King and Zeng (2001) [ PDF ]에 있습니다.

이 '희귀 사건 수정'은 대개 역학에서 주로 사용되는 사례 제어 연구 설계를 위해 설계되었으며, 일반적으로 균형이 잡힌 고정 된 수 0 사례와 1 사례를 선택하여 사례를 선택한 다음 결과 샘플 선택 편향을 수정해야합니다. 실제로, 분류기를 같은 방식으로 훈련시킬 수 있습니다. 균형 잡힌 훌륭한 샘플을 선택한 다음 임의의 샘플이 알려주는 것보다 희귀 한 클래스에 대해 자세히 알아보기 위해 종속 변수에서 선택한 사실을 고려하여 절편을 수정하십시오.

예측하기

관련이 있지만 뚜렷한 주제 : 예측을하려면 지능적으로 임계 값을 설정해야한다는 것을 잊지 마십시오. 모형 확률이 0.5보다 클 때 항상 1을 예측하는 것이 가장 좋습니다. 다른 임계 값이 더 나을 수 있습니다. 이를 위해 기본 확률 임계 값을 사용한 예측 성공뿐만 아니라 분류기의 ROC (수신기 작동 특성) 곡선을 살펴 봐야합니다.


8
작동 등급 주파수를 모르는 경우 테스트 / 작동 샘플의 레이블을 몰라도 EM에 의해 주파수를 추정 할 수 있습니다. 자세한 내용은 Saerens et al. "분류기의 출력을 새로운 확률로 조정하기 : 간단한 절차", 신경 계산, vol. 14 번 1, pp. 21-41, 2002 ( dx.doi.org/10.1162/089976602753284446 ). 나는 이것을 두 번 사용했고 그것이 얼마나 잘 작동했는지에 깊은 인상을 받았습니다. 그러나 이론적 인 수정은 일반적으로 최적이 아니며 교차 검증 등을 통해 설정하는 것이 더 좋습니다.
Dikran Marsupial

네, ROC- 커브 결과는 설득력이 없다고 언급했습니다. 이 경우 만족스러운 결과를 제공하는 임계 값이 없다고 생각합니다.
Michiel

예측과 관련하여 : 0과 1 결과에 대한 훈련 세트의 크기를 어떻게 고려할 수 있습니까? 실제로 0.5의 임계 값을 사용하고 싶지 않지만 R에서이를 수행하는 방법을 잘 모르겠습니다.
Perlnika

1
@Perlnika 자세한 내용은 용지 링크에 있습니다 (가장 간단한 경우 추정 요격을 변경 함). 0.5가 아닌 임계 값을 사용하려면 예측 된 확률을 사용하여 predict각 임계 값이 새 임계 값보다 큰지 여부를 계산하십시오.
conjugateprior

1
@SassaNF 인터셉트 시프트는 임계 값 변경으로 오프셋 될 수 있습니다. 그러나 이는 확률 추정 (추론)을 상대적인 비용의 오차 (손실 함수)와 결합하는 반면, 후자는 응용 프로그램에서 다를 수 있습니다. 예를 들어, 0에 대해 1을 잘못 타는 비용이 1을 0으로 잘못 타는 비용의 C 배인 경우 1 / (1 + C)에 예상 확률을 임계 값으로 설정하려고합니다.
공역 이전

41

문제는 클래스 자체가 불균형하다는 것이 아니라, 소수 클래스에 속하는 패턴이 분포를 적절히 나타내는 데 충분하지 않을 수 있다는 것입니다. 즉, 로지스틱 회귀 분석뿐만 아니라 합성 문제가 있고 실제 모델이 있음을 알고있는 경우에도 모든 분류기에서 문제가 발생할 수 있습니다. 좋은 점은 더 많은 데이터를 사용할 수있게되면 "클래스 불균형"문제가 사라진다는 것입니다. 4 : 1이 불균형 한 것은 아닙니다.

균형 잡힌 데이터 집합을 사용하는 경우 중요한 것은 클래스가 동일하다고 가정 할 때 모델의 결과가 a-posteriori 확률의 추정치라는 점을 기억하는 것이므로 모델을 너무 많이 편향시킬 수 있습니다. 각 클래스에 속하는 패턴을 다르게 가중치를 부여하고 올바른 운영 클래스 주파수로 테스트 세트에서 교차 엔트로피를 최소화하여 가중치를 선택합니다.


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Zhubarb

2

두 표본의 기본 분포에 대해 생각해보십시오. 더 작은 샘플에서 큰 편향없이 두 하위 모집단을 측정 할 수있는 충분한 샘플이 있습니까?

자세한 설명은 여기를 참조하십시오.

https://statisticalhorizons.com/logistic-regression-for-rare-events


5
이것은 질문에 대답하지 않는 것 같습니다.
Michael Chernick

확실한 답이 없기 때문입니다! 그것은 당신이 그것을 적용하는 방법과 추정 과정에 기꺼이 허용하는 편견의 양에 관한 것입니다.
Paul Tulloch

1
나는 이것이 큰 대답이라고 생각합니다. 내가 이해하는 한, 불균형을 수정하려는 모든 시도는 실험에서 포착되지 않은 외부 지식에 의존합니다. 특히 기본 분포를 아는 것은 수정에 도움이 될 것입니다.
user1700890
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.