회귀에 대한 비대칭 손실 함수를 설계하고 구현하는 방법은 무엇입니까?


24

문제

회귀 분석에서 일반적으로 샘플에 대한 평균 제곱 오차 (MSE)를 계산합니다 . 를 사용하여 예측 변수의 품질을 측정합니다.

MSE=1ni=1n(g(xi)g^(xi))2

지금은 고객이 여러 가지 숫자 기능이 주어진 제품에 대해 기꺼이 지불 할 가격을 예측하는 것이 목표 인 회귀 문제를 해결하고 있습니다. 예상 가격이 너무 높으면 고객이 제품을 구매하지 않지만 가격을 간단히 줄일 수 있기 때문에 금전적 손실은 적습니다. 물론 제품을 오랫동안 사지 않을 수 있으므로 너무 높으면 안됩니다. 반면에 예상 가격이 너무 낮 으면 가격을 조정할 수있는 기회없이 제품을 빠르게 구매합니다.

다시 말해, 학습 알고리즘은 실제 가격을 과소 평가하지 않고 필요한 경우 감소 될 수있는 약간 더 높은 가격을 예측하여 즉각적인 금전적 손실을 초래해야합니다.

의문

이 비용 비대칭 성을 통합 한 오류 메트릭을 어떻게 설계 하시겠습니까?


가능한 해결책

비대칭 손실 함수를 정의하는 방법은 간단히 가중치를 곱하는 것입니다. 가진 는 비대칭의 정도를 변경하기 위해 조정할 수있는 매개 변수입니다. 여기 에서 찾았습니다 . 이것은 2 차 손실을 유지하면서 가장 간단한 일처럼 보입니다. α ( 0 , 1 )

1ni=1n|α1(g(xi)g^(xi))<0|(g(xi)g^(xi))2
α(0,1)

1
@MichaelChernick, FTR, 나는 이것이 명확하고 일관되게 언급 된 좋은 질문이라고 생각하며, 나는 조금 까다 롭다는 것을 인정합니다. 내가 아는 것은 회귀 피팅 (즉, 해결 )은 OLS 손실 함수 SSE를 최소화하여 기본적으로 수행됩니다 . 넌 MSE는 것을 잘 할 수 동등하게 사용할 수 B / C 상수로 나누어하는 후보 베타의 순서에 영향을 미치지 않습니다. β
gung-복직 모니카

1
또 다른 사실은 MSE (자주 RMSE)를 사용하여 적합 모델의 품질을 평가하는 경우가 많습니다 (다시 말하지만 SSE를 동등하게 사용할 수 있음). 문제는이 질문이 (어쨌든 저에게) 손실 기능 에 대해 어떻게 생각하고 / 재 설계하는지에 대한 것 같습니다 . 따라서 적합 한 베타는 품질에 대해 다르게 생각하는 방법이 아니라 기본적으로 원래 있던 것과 다릅니다. 이미 맞는 모델의
gung-복직 모니카

1
@Kiudee, Q에 대한 나의 해석이 옳다면 손실 함수 태그 를 추가하기 위해 편집하고 "회귀에 대한 비대칭 손실 함수를 설계 및 구현하는 방법"과 같은 제목을 수정하는 것에 대해 어떻게 생각하십니까? 당신이 그들에 동의하지 않는 경우에 대비하여 나는 스스로 편집하지 않을 것입니다.
gung-모니 티 복원

2
참고로, 비대칭 손실 함수를 원할 때 Quantile 회귀가 제안 된 것을 보았습니다. Berk, 2011 , PDF here 참조 .
Andy W

1
이 문제를 해결하기 위해 다양한 학습 알고리즘을 사용하고 있으므로 함수를 한 번 이상 차별화 할 수 있어야합니다.
Kiudee

답변:


7

위의 주석에서 언급했듯이 Quantile 회귀 분석은 비대칭 손실 함수를 사용합니다 (선형이지만 양수 및 음수 오차에 대해 기울기가 다름). 양자 회귀의 2 차 (제곱 손실) 유사체는 기대 회귀입니다.

참조에 대한 Google Quantile 회귀 분석을 수행 할 수 있습니다. 기대 회귀 분석에 대해서는 R 패키지 expectreg 및 참조 매뉴얼의 참조를 참조하십시오.


2

이러한 종류의 불평등 가중치는 종종 두 클래스의 분류 문제에서 수행됩니다. Bayes 규칙은 한 오류에 대해 다른 오류보다 손실이 더 큰 손실 함수를 사용하여 수정할 수 있습니다. 이로 인해 오류율이 다른 규칙이 만들어집니다.

회귀에서는 음수 오차에 가중치를 부여하고 양수 오류에 가중치를 부여하는 가중치 제곱합과 같은 가중치 함수를 구성 할 수 있습니다. 이것은 가중 최소 제곱과 비슷하지만 가중 최소 제곱은 예측 변수에 대한 가능한 값의 공간에 걸쳐 오차 분산이 일정하지 않은 문제에 대한 것이므로 약간 다릅니다. 이 경우 오차 분산이 작은 것으로 알려진 지점에 대해 가중치가 높고, 오차 분산이 큰 것으로 알려진 지점에서 더 높은 가중치입니다. 물론 이것은 OLS가 제공하는 것과 다른 회귀 매개 변수의 값으로 이어질 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.