입력 변수를 이진 출력 변수에 맞추기 위해 표준 버전의 로지스틱 회귀를 사용하고 있습니다.
그러나 내 문제에서는 음수 출력 (0)이 양수 출력 (1s)보다 훨씬 큽니다. 비율은 20 : 1입니다. 따라서 분류자를 훈련시킬 때 양의 출력 가능성을 강력하게 제안하는 기능조차도 해당 매개 변수에 대해 매우 낮은 (매우 음수) 값을 갖는 것으로 보입니다. 매개 변수를 방향으로 당기는 부정적인 예가 너무 많기 때문에 이런 일이 발생하는 것 같습니다.
긍정적 인 예를 위해 가중치를 추가 할 수 있는지 궁금합니다 (1 대신 20을 사용하여). 이것이 전혀 도움이 될까요? 그렇다면 가중치를 어떻게 추가해야합니까 (아래 방정식).
비용 함수는 다음과 같습니다.
이 비용 함수의 기울기 (wrt )는 다음과 같습니다.
여기서 = 테스트 사례 수, = 특징 행렬, = 출력 벡터, = 시그 모이 드 함수, = 학습하려는 매개 변수.
마지막으로 가능한 가장 낮은 를 찾기 위해 그라디언트 디센트를 실행 합니다. 구현이 올바르게 실행되는 것 같습니다.