로지스틱 회귀 분석에 대한 손실 함수의 두 가지 버전에 대해 읽었습니다. 둘 중 어느 것이 정확하고 왜 그런가요?
에서 기계 학습 , 저우 ZH (중국어에)와 :
내 대학 과정에서 :
첫 번째 샘플은 모든 샘플의 누적이고 두 번째 샘플은 단일 샘플에 대한 것이지만 두 손실 함수의 형태 차이에 대해 더 궁금합니다. 어떻게 든 나는 그것들이 동등한 느낌을 가지고 있습니다.
로지스틱 회귀 분석에 대한 손실 함수의 두 가지 버전에 대해 읽었습니다. 둘 중 어느 것이 정확하고 왜 그런가요?
에서 기계 학습 , 저우 ZH (중국어에)와 :
내 대학 과정에서 :
첫 번째 샘플은 모든 샘플의 누적이고 두 번째 샘플은 단일 샘플에 대한 것이지만 두 손실 함수의 형태 차이에 대해 더 궁금합니다. 어떻게 든 나는 그것들이 동등한 느낌을 가지고 있습니다.
답변:
관계는 다음과 같습니다. .
로지스틱 함수를 f ( z ) = e z 로 정의하십시오 . 들은이 특성을 가지고F(-Z는)=1-F(Z를). 또는 다른 말로하면 :
양쪽의 역수를 취하면 얻는 로그를 가져옵니다.
양쪽에서 를 빼면 다음이 표시됩니다.
순간 나는이 대답을 재-읽고 내가 가진 방법에 대해 혼란 스러워요입니다 동일하게 - Y 내가 β T는 X 나에게 + 패 N을 ( 1 + e y i β T x i ) . 아마도 원래 질문에 오타가있을 것입니다.
원래 질문에 오타가없는 경우, @ManelMorales는 일 때 확률 질량 함수가 P ( Y 난 = Y I ) = F ( Y I β T는 X I를 ) 기인하는 속성, F ( - Z는 ) = 1 - F를 ( Z ). 그는 표기법 에 대한 새로운 말을 소개하기 때문에 여기서 다르게 작성하고 있습니다 . 나머지는 각 y 코딩 에 대해 음의 로그 가능성을 취합니다 . 자세한 내용은 아래의 답변을 참조하십시오.
OP는이 두 기능 간의 관계가 샘플 수 (즉, 단일 대 전체)에 기인한다고 잘못 생각합니다. 그러나 실제 차이점은 단순히 교육 레이블을 선택하는 방법입니다.
이진 분류의 경우 레이블 또는 지정할 수 있습니다 .
이미 언급 한 바와 같이, 로지스틱 함수 은 확률, 즉 형태가 있기 때문에 좋은 선택이다 및 를 합니다. 우리가 라벨을 선택하면 , 우리는 할당 할 수 있습니다
이것은 로보다 간결하게 쓰여질 수 있습니다 .
로그 가능성을 최대화하는 것이 더 쉽습니다. 로그 우도를 최대화하는 것은 음의 로그 우도를 최소화하는 것과 같습니다. 대한 샘플 , 자연 로그, 일부 단순화를 복용 후, 우리가 발견 할 것이다 :
이 jupyter 노트북 에서 전체 파생 및 추가 정보를 찾을 수 있습니다 . 반면에 레이블 대신 사용했을 수도 있습니다 . 우리가 할당 할 수있는 것은 매우 분명합니다
또한 명백하다 . 이 경우 이전과 같은 단계를 거쳐 손실 기능
마지막 단계는 음수 부호에 의해 유도 된 역수를 취한 후에 따릅니다. 각 양식에서 는 다른 값을 취 한다는 점을 감안할 때이 두 양식을 동일시해서는 안되지만이 두 형식 은 동일합니다.
사례 은 사소한 것입니다. 만약 후 왼쪽과 오른쪽에서.
왜 우리가 두 가지 다른 형태를 갖는지에 대한 근본적인 이유가있을 수 있지만 ( 두 가지 다른 로지스틱 손실 공식화 / 표기법이있는 이유는 무엇입니까? ) 전자를 선택 해야하는 한 가지 이유는 실제적인 고려입니다. 전자에서는 속성을 사용하여 및 ∇ 2 l ( z ) 를 간단히 계산할 수 있습니다둘 다 수렴 분석에 필요합니다 (즉 , Hessian 을 계산하여 손실 함수의 볼록 함을 결정하기 위해 ).
로지스틱 회귀에 대한 손실 함수를 다음과 같이 배웠습니다.
로지스틱 회귀는 이진 분류를 수행하므로 레이블 출력은 이진, 0 또는 1입니다. 는 입력 특징 벡터 주어지면 이진 출력 가 1 일 확률입니다 . 계수 는 알고리즘이 배우려고하는 가중치입니다.
로지스틱 회귀는 이항이므로 확률 는 단순히 1에서 1을 뺀 값입니다.
손실 함수 는 (A) 출력 에 곱한 값 과 (B) 출력 에 을 곱한 한 훈련 예의 합입니다. 이상의 훈련 예.
여기서 는 학습 데이터 의 레이블을 나타냅니다 . 훈련 인스턴스의 레이블이 이면 이고 왼쪽 소환은 그대로두고 의 오른쪽 소환 은 됩니다. 반면, 교육 인스턴스의 이면 용어 의 오른쪽 소환은 그대로 유지되지만 왼쪽 소환은 됩니다. 로그 확률은 계산의 용이성을 위해 사용됩니다.
우리는 다음 교체 할 경우 와 이전의 표현으로, 우리는 얻을 :
이 양식에 대한 자세한 내용은 Stanford 강의 노트를 참조하십시오 .
평균 제곱 오차 대신 로그 손실이라고도하는 교차 엔트로피라는 비용 함수를 사용합니다. 교차 엔트로피 손실은 두 가지 별도의 비용 함수 (y = 1에 대한 것과 y = 0에 대한 것)로 나눌 수 있습니다.
우리가 함께 모을 때 우리는 다음을 갖습니다.
위 방정식에서 와 를 곱하면 과 경우 모두 같은 방정식을 사용하여 해결할 수 있습니다. 하면 첫 번째 측면은 상쇄된다. 경우 두 번째 측면은 상쇄된다. 두 경우 모두 수행해야하는 작업 만 수행합니다.
for
루프 를 사용하지 않으려면 위의 방정식을 벡터화 한 형태로 시도 할 수 있습니다
전체 설명은 Machine Learning Cheatsheet 에서 볼 수 있습니다 .