L2가 사후 손실을 계산하기에 좋은 손실 함수 인 경우의 예는 무엇입니까?


9

L0 및 L1 손실과 함께 L2 손실은 최소 사후 예상 손실로 사후를 요약 할 때 사용되는 매우 일반적인 "기본"손실 함수입니다. 이것에 대한 한 가지 이유는 아마도 계산하기가 비교적 쉽고 (적어도 1 차원 분포의 경우), L0은 모드에서, L1은 중앙값에서, L2는 평균으로 나타납니다. 강의 할 때 L0과 L1이 합리적인 손실 함수 ( "기본"이 아닌) 인 시나리오를 생각 해낼 수 있지만 L2가 합리적인 손실 함수가되는 시나리오로 어려움을 겪고 있습니다. 그래서 내 질문 :

교육 학적 목적으로, L2가 최소 후방 손실을 계산하기위한 우수한 손실 함수 인 경우의 예는 무엇입니까?

L0의 경우 베팅에서 시나리오를 쉽게 만들 수 있습니다. 다가오는 축구 경기에서 총 목표 수보다 사소한 계산을했고 정확하게 목표 수를 추측하고 달리 잃으면 $$$를이기는 베팅을 할 것입니다. 그러면 L0은 합리적인 손실 함수입니다.

내 L1 예제는 약간 고안되었습니다. 많은 공항 중 하나에 도착한 후 자동차로 여행하는 친구를 만납니다. 문제는 어떤 공항을 알지 못한다는 것입니다. 그녀가 어느 공항에 착륙했는지에 대한 후미가 주어지면, 그녀가 도착했을 때 그녀와 당신 사이의 거리가 좁아 지도록 자신을 위치시킬 좋은 장소는 어디입니까? 여기서 L1 손실을 최소화하는 지점은 자동차가 일정한 속도로 사용자의 위치로 직접 이동한다는 가정을 단순화한다면 합리적으로 보입니다. 즉, 1 시간 대기는 30 분 대기의 두 배입니다.


경고 : L0은 지속적인 문제에 대한 모드가되지 않습니다.
Xi'an

흠, 그래, 나는 L0-> 모드라고 말하기가 조금 부끄럽다는 것을 안다.
Rasmus Bååth

2
역 제곱 법을 살펴보면, 우리가 선택할 수있는 공간의 어떤 지점이 가장 가까운 광원을 제외하고는 거의 무시할 수있는 빛을 얻도록 L2 손실을 사용하는 것은 수를 최소화하고자하는 것과 같습니다. 받은 루멘 당 초. 그러나 초당 루멘을 최대화하는 대신 왜 그렇게하고 싶을 지 생각할 수 없습니다.
우발적 인 통계 학자

답변:


4
  1. L2는 "쉬운"입니다. 선형 회귀, SVD 등과 같은 표준 행렬 방법을 사용하면 기본적으로 얻을 수 있습니다. 컴퓨터를 가질 때까지 L2는 많은 문제에 대한 유일한 게임이었습니다. 모든 사람들이 분산 분석, t- 테스트 등을 사용하는 이유입니다. 또한 다른 손실 함수를 사용하여 정확한 답을 얻는 것보다 가우시안 프로세스와 같은 더 멋진 방법으로 L2 손실을 사용하여 정확한 답을 얻는 것이 더 쉽습니다.

  2. 특히 2 차 테일러 근사법을 사용하여 L2 손실을 정확하게 얻을 수 있습니다. 이는 대부분의 손실 함수 (예 : 교차 엔트로피)에는 해당되지 않습니다. 이것은 Newton의 방법과 같은 2 차 방법으로 최적화를 쉽게 만듭니다. 다른 손실 함수를 처리하기위한 많은 방법이 여전히 같은 이유로 L2 손실에 대한 방법을 사용합니다 (예 : 반복적으로 가중 된 최소 제곱, 통합 된 중첩 라플라스 근사).

  3. L2는 가우스 분포와 밀접한 관련이 있으며 중앙 한계 정리는 가우시안 분포를 일반적으로 만듭니다. 데이터 생성 프로세스가 (조건부) 가우시안 인 경우 L2가 가장 효율적인 추정량입니다.

  4. L2 손실은 전체 분산 법칙으로 인해 잘 분해됩니다. 따라서 잠재 변수가있는 특정 그래픽 모델이 특히 쉽게 맞습니다.

  5. L2는 끔찍한 예측에 불균형을가합니다. 이것은 좋거나 나쁠 수 있지만 종종 꽤 합리적입니다. 많은 사람들이 약속을 놓치게하는 경우, 한 시간 동안 기다릴 경우 평균 30 분 동안 네 배나 나쁠 수 있습니다.


2
흠, 내가 겪은 것은 L2가 합리적인 손실 함수가 될 수있는 결정 상황과 비슷했습니다. 내 질문에있는 두 가지 예와 비슷하지만 L2의 시나리오와 같습니다.
Rasmus Bååth

1
@ RasmusBååth (3의 가우스 데이터 생성 프로세스와의 연결을 제외하고) 손실 을 정확히 제곱 한다는 주장에 대해서는 확신하지 못하지만 # 5는 어떤 종류의 손실 함수를 가속화하기위한 주장입니다. 두 번째로, 그러한 기능은 L2 손실과 일치합니다.
David J. Harris

@ DavidJ.Harris 사실, # 5가 올바르지 않습니다. 이러한 경우에 할 일은 좌절 = time²을 최소화하기 위해 L1 abs (xy) 손실을 사용하는 것입니다. 당신이 제안한대로 시간에 대한 (xy) ² 손실을 사용하는 것은 실제로 당신에게 차선책을 줄 것입니다.
Íhor Mé

@ ÍMorMé 나는 당신을 오해해야한다고 생각합니다. 제곱 오차 를 최소화하는 가장 좋은 방법 은 L2 규범이 아니라 절대 손실 을 최소화하는 것입니다.
David J. Harris

@ DavidJ.Harris 그래, 나는 이것이 "나쁜"(= 시간 diff²)을 최소화하는 문제이며, 기다리는 시간이 본질적으로 아니라는 점을 지적하려고 노력했지만, 나는 원래 생각 실험을 오해했다고 생각한다. 이제 다시 읽었으므로 L2는 시차 최소화에서 "나쁜"최소화로 전환하는 합법적 인 방법입니다. 비록 프로그래머가 먼저 어떤 "나쁜"을 최소화하고 싶은지 정확하게 식별 한 다음 그 값을 얻은 다음 L1을 통해 최소화하는 것이 가장 좋습니다. 이 경우 먼저 (시간 차이) ²를 얻은 다음 L1 손실을 최소화하십시오. 하고있는 일을 알고있을 때만 L2를 사용하십시오.
Íhor Mé
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.