평균 제곱 오차를 분류에 사용할 수 있습니까?


14

평균 제곱 오류 수식과 계산 방법을 알고 있습니다. 회귀에 대해 이야기 할 때 평균 제곱 오차를 계산할 수 있습니다. 그러나 분류 문제에 대한 MSE와 그 계산 방법에 대해 이야기 할 수 있습니까?

답변:


12

많은 분류자가 연속 점수를 예측할 수 있습니다. 종종 연속 점수는 분류의 마지막 단계로 클래스 레이블로만 변환되는 중간 결과입니다 (일반적으로 임계 값으로). 다른 경우, 예를 들어 계급 멤버쉽에 대한 사후 확률 (예 : 판별 분석, 로지스틱 회귀)을 계산할 수 있습니다. 클래스 레이블 대신 이러한 연속 점수를 사용하여 MSE를 계산할 수 있습니다. 그것의 장점은 이분법으로 인한 정보의 손실을 피한다는 것입니다.
연속 점수가 확률이면 MSE 측정 항목을 브리 어의 점수라고합니다.

그러나 변장에 오히려 회귀 문제인 분류 문제도 있습니다. 내 분야에서, 예를 들어 일부 물질의 농도가 법적 한계를 초과하는지 여부에 따라 사례를 분류 할 수 있습니다 (이진 / 차별적 2 등급 문제). 여기서 MSE는 과제의 근본적인 회귀 특성으로 인해 자연스러운 선택입니다.

본 논문에서는 C. Beleites, R. Salzer 및 V. Sergo :
부분 클래스 멤버십을 사용한 소프트 분류 모델의 검증 : Astrocytoma 조직의 등급 지정에 적용되는 민감성 및 Co.
Chemom. Intell. 랩. Syst., 122 (2013), 12-22.

계산 방법 : R에서 작업하는 경우 한 가지 구현은 "softclassval"패키지 http : /softclassval.r-forge.r-project.org에 있습니다.


@ seanv507 : 많은 감사합니다!
SX

1

나는 성공적인 분류가 이진 변수 (정확한지 아닌지)인지 알지 못하므로 제곱하는 것이 무엇인지 알기가 어렵습니다.

일반적으로 분류는 학습 세트에서 추정 된 분류가 이전에 별도로 설정된 테스트 세트에 적용될 때 올바른 백분율과 같은 지표에서 측정됩니다.

평균 제곱 오차는 연속 변수의 예측 또는 예측 값에 대해 확실히 계산 될 수 있지만 분류에는 적합하지 않습니다.


0

확률 추정치 경우 MSE가 아니라 가능성을 계산하려고합니다.π^

=나는π^나는와이나는(1π^나는)1와이나는

이 가능성은 이진 반응에 대한 것이며, Bernoulli 분포가 있다고 가정합니다.

의 로그 를 취한 다음 무효화하면 이진 반응이있을 때 MSE와 유사한 로지스틱 손실이 발생합니다. 특히, MSE는 정규 분포를 갖는 것으로 가정되는 연속 반응에 대한 음의 로그 가능성입니다.


0

기술적으로는 가능하지만 MSE 기능은 이진 분류에서 볼록하지 않습니다. 따라서 이진 분류 모델이 MSE 비용 함수로 훈련 된 경우 비용 함수를 최소화한다고 보장 할 수 없습니다 . 또한 비용 함수로 MSE를 사용하면 이진 분류의 경우가 아닌 가우스 분포를 가정합니다.


1
MSE가 왜 가우스 분포를 가정합니까? (최소 제곱 회귀 분석과 반대로 MSE를 손실로 사용하므로 정규 분포 잔차의 회귀 문제에 최적임을 알 수 있습니다)
SX에 불만족

이진 분류에는 적합하지 않지만 회귀에는 적합합니다. 문제는 이진에 대한 것이었다.
Mostafa Nakhaei

이 질문에는 이진 분류 가 없습니다 . 심지어 차별적 인 분류조차하지 않습니다. 그리고 MSE를 사용할 수 있는지 여부에 대해서만 최적 성 (이진 또는 2 클래스로 차별적이라고 말하는 것보다 상황에 대해 더 구체적이어야 함)에 대해 묻지 않습니다. 또한, Brier의 점수는 예측에 대한 적절한 점수 규칙이므로, 비 최적성에 대한 자세한 설명은 확실히 도움이 될 것입니다 (그리고이 비 최적화가 적용되는시기에 대해 매우 밝게 표시 될 수 있음).
SX에 불만족
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.