로지스틱 회귀 분석에서 치우친 데이터 집합에 가중치 추가


9

입력 변수를 이진 출력 변수에 맞추기 위해 표준 버전의 로지스틱 회귀를 사용하고 있습니다.

그러나 내 문제에서는 음수 출력 (0)이 양수 출력 (1s)보다 훨씬 큽니다. 비율은 20 : 1입니다. 따라서 분류자를 훈련시킬 때 양의 출력 가능성을 강력하게 제안하는 기능조차도 해당 매개 변수에 대해 매우 낮은 (매우 음수) 값을 갖는 것으로 보입니다. 매개 변수를 방향으로 당기는 부정적인 예가 너무 많기 때문에 이런 일이 발생하는 것 같습니다.

긍정적 인 예를 위해 가중치를 추가 할 수 있는지 궁금합니다 (1 대신 20을 사용하여). 이것이 전혀 도움이 될까요? 그렇다면 가중치를 어떻게 추가해야합니까 (아래 방정식).

비용 함수는 다음과 같습니다.

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

이 비용 함수의 기울기 (wrt )는 다음과 같습니다.θ

grad=((h(xθ)y)X)

여기서 = 테스트 사례 수, = 특징 행렬, = 출력 벡터, = 시그 모이 드 함수, = 학습하려는 매개 변수.mxyhθ

마지막으로 가능한 가장 낮은 를 찾기 위해 그라디언트 디센트를 실행 합니다. 구현이 올바르게 실행되는 것 같습니다.J


안녕하세요, 당신이 설명한 것과 똑같은 문제가 있습니다. 내 데이터에서 많은 예제는 부정적이며 거의 긍정적이지 않으며, 일부 부정을 잘못 분류하는 경우에도 긍정적으로 올바르게 분류하는 것이 더 중요합니다. 동일한 비용 함수 및 그라디언트 방정식을 사용하고 있기 때문에 귀하와 동일한 방법을 적용하고있는 것으로 보입니다. 지금까지 몇 가지 테스트를 수행했으며 다음과 같은 결과를 얻었습니다.- 7 개의 매개 변수 , 교육 샘플 크기 : 225000 , 테스트 샘플 크기 : 75000 결과 : 92 % 정확도 , 양성의 경우 11 % w
Cartz

1
당신이하고있는 일은 손실 가능성을 최대 가능성과 혼동하는 것입니다. 가중 화되지 않은 mle은 추론 적 관점에서 "올바른 일"을 수행하고 있으며 각 공변량 사양에 대한 결과가 얼마나 드문지를 반영합니다. 또한 훈련 데이터의 반응을 완벽하게 예측할 수있는 특정 공변량 세트가 분리되면 큰 음수 값을 얻을 수 있습니다.
확률

2
분류는 좋은 목표가 아니며 로지스틱 회귀가 개발 된 방식이 아닙니다. 여기에 나열된 모든 문제를 일으키는 것은 분류 개념입니다. 예상 확률과 적절한 정확도 점수 규칙
Frank Harrell

1
@arahant 그것은 부분적으로 만 사실입니다. 로짓 링크가있는 이항 로지스틱 회귀 분석은 공변량의 계수가 MLE이고 해당 변수가 클래스 0과 비교하여 클래스 1의 확률에 미치는 영향을 반영한다는 점에서 여전히 유효합니다. 그러나 케이스 제어 설계에서 절편은 다음과 같습니다. 클래스 1과 클래스 0의 비율을 반영하도록 항상 고정되어 있으며, 계수를 변경하지 않기 때문에 일부 분류 오류 비용 함수 또는 다른 프로세스와 일치하는 클래스를 할당하기 위해 절편 항을 조정하는 것이 완벽하게 유효합니다 변수에.
Sycorax는 Reinstate Monica

1
컷오프가 필요 / 원하는 / 바람직하다는 아이디어를 어디서 얻었습니까?
Frank Harrell

답변:


8

그것은 더 이상 최대 가능성이 아닙니다. 이러한 극단적 인 분포Y분류기를 사용하는 경우 (즉, 올바르게 분류 된 비율을 계산하는 경우 부적절한 점수 규칙)에만 문제가 있습니다. 표준 최대 가능성으로부터의 확률 추정값이 유효합니다. "양성"의 총 수가 후보 변수의 수의 15 배보다 작은 경우, 벌칙 최대 가능성 추정은 순서대로 이루어질 수있다.


프랭크, "15 배 ..."세부 사항을 뒷받침 할만한 참고 자료가 있습니까? 다른 연구자들이 개발 한 ROC 방법 대신 로지스틱 회귀를 사용하는 일부 데이터에서 비슷한 불균형이 있습니다. 최근에 작은 샘플 바이어스를 발견했으며 코드 / 패키지의 피팅 옵션으로 Firth의 바이어스 감소 옵션을 추가했습니다. 제가이 일지를 저널로 작성하는 동안, 이와 같은 경험 법칙을 따라 인용하는 것이 유용 할 것입니다. 참고 문헌이 내 선반에 있지만 아직 보지 않은 RMS 서적 인 경우 사과드립니다.
개빈 심슨

소 표본 편견과 Firth 처벌의 가치에 관한 논문이 있습니다. 나는 그것들이 편리하지 않다. 15 : 1에 대해서는 biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…을
Frank Harrell

고마워 프랭크-15 : 1 문제는 내가 가장 좋아했던 문제였습니다. 나는 작은 표본 편견과 Firth의 방법에 관한 간행물을 가지고 있습니다. 그러나 만약 당신이 손에 무언가를 가지고 있다면 결국 그것이 무엇인지 알려 주면 가장 감사 할 것입니다.
개빈 심슨

3
내가 처음에했던 것처럼 다른 사람이 위의 내용을 잘못 읽어야하는 경우를 대비하여. 문제의 20 : 1은 부정적인 관찰 대 긍정적 인 관찰의 비율입니다. Frank Harrell의 답변에서 15 : 1은 또 다른 것입니다. 긍정적 인 관찰 대 후보 독립 변수의 비율.
Adam Bailey

극단 분포는 특히 범주 형 예측 변수가있는 경우 준-완전 분리 가능성을 증가시켜 문제를 나타냅니다. 벌칙도 여기에 도움이됩니다.
probabilityislogic

3

이와 같은 경우에는이 비대칭을 캡처 할 수있는 로지스틱 링크 대신 유연한 링크를 사용하는 것이 좋습니다. 예를 들어, 스큐 노멀, GEV , sinh-arcsinh 및 그 안의 참조. 다른 많은 것들이 있지만 두 개 이상의 링크를 게시 할 수 없습니다.


다른 링크 기능에 대한 설명을 제공 할 수 있습니까?
DW
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.