목적이 실제로 예측되지만 추론이 아닌 경우 부적절한 점수 규칙을 사용하는 것이 좋습니다. 나는 내가 예측을하려고하는 사람 일 때 다른 예측자가 부정 행위를하고 있는지 아닌지 상관하지 않습니다.
적절한 스코어링 규칙은 추정 프로세스 동안 모델이 실제 데이터 생성 프로세스 (DGP)에 접근하도록합니다. 우리가 진정한 DGP에 접근함에 따라 우리는 모든 손실 함수 하에서 예측 측면에서도 잘 수행 할 것이기 때문에 유망한 것으로 보인다. 캐치 검색 공간에는 실제 DGP가 거의 포함되어 있지 않습니다. 우리는 제안한 기능적 형태로 실제 DGP를 근사화합니다.
이보다 현실적인 설정에서 예측 작업이 실제 DGP의 전체 밀도를 파악하는 것보다 쉬운 경우 실제로 더 잘할 수 있습니다. 이것은 분류에 특히 해당됩니다. 예를 들어 실제 DGP는 매우 복잡 할 수 있지만 분류 작업은 매우 쉽습니다.
Yaroslav Bulatov는 자신의 블로그에서 다음 예를 제공했습니다.
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
아래에서 볼 수 있듯이 실제 밀도는 흔들리지 만 이에 의해 생성 된 데이터를 두 개의 클래스로 분리하는 분류기를 작성하는 것은 매우 쉽습니다. 출력 클래스 1이고 출력 클래스 2 인 경우 간단합니다 .x ≥ 0x < 0
위의 정확한 밀도와 일치하는 대신 아래의 조잡한 모델을 제안합니다. 이는 실제 DGP와는 상당히 다릅니다. 그러나 그것은 완벽한 분류를합니다. 이것은 적절하지 않은 힌지 손실을 사용하여 발견됩니다.
반면에 로그 손실이있는 실제 DGP를 찾기로 결정한 경우 (정확한) 정확한 기능적 형태가 무엇인지 알지 못하므로 일부 기능을 갖추기 시작합니다. 그러나 당신이 그것을 맞추려고 더 열심히 노력할 때, 당신은 물건을 잘못 분류하기 시작합니다.
두 경우 모두 동일한 기능 양식을 사용했습니다. 부적절한 손실의 경우 단계 함수로 퇴화되어 완벽한 분류가 이루어졌습니다. 적절한 경우 밀도의 모든 영역을 만족 시키려고 애를 썼다.
기본적으로 정확한 예측을 위해 항상 실제 모델을 달성 할 필요는 없습니다. 때로는 밀도의 전체 영역에서 좋은 일을 할 필요는 없지만 특정 부분에서만 잘 할 수도 있습니다.