그래서 나는 어느 중앙 측정치 L1 (즉, 올가미)와 L2 (즉, 능선 회귀)가 추정되는지에 대한 질문을 받았다. 답은 L1 = 중간 값이고 L2 = 평균입니다. 이것에 대한 직관적 인 추론이 있습니까? 아니면 대수적으로 결정해야합니까? 그렇다면 어떻게해야합니까?
그래서 나는 어느 중앙 측정치 L1 (즉, 올가미)와 L2 (즉, 능선 회귀)가 추정되는지에 대한 질문을 받았다. 답은 L1 = 중간 값이고 L2 = 평균입니다. 이것에 대한 직관적 인 추론이 있습니까? 아니면 대수적으로 결정해야합니까? 그렇다면 어떻게해야합니까?
답변:
L1 손실 함수가 중앙값을 생성하는 이유에 대한 간단한 기하학적 설명이 있습니다.
우리는 한 차원에서 일하고 있다는 것을 기억하십시오. 수평선이 수평으로 퍼져 있다고 상상해보십시오. 숫자 라인에 각 데이터 점을 플로팅합니다. 선 어딘가에 손가락을 대십시오. 손가락이 현재 후보 추정치가됩니다.
손가락을 오른쪽으로 조금 움직이면 오른쪽의 단위를 말합니다 . 총 손실은 어떻게됩니까? 음, 경우 손가락 두 개의 데이터 포인트 사이에, 그리고 당신이 데이터 포인트를 통해 이동, 당신은에 의해 총 손실을 증가했습니다 당신의 손가락의 왼쪽에 각 데이터 포인트 및하여 감소 각 데이터에 대한 손가락의 오른쪽을 가리 킵니다. 따라서 손가락보다 왼쪽에있는 것보다 많은 데이터 점이있는 경우 손가락을 오른쪽으로 움직이면 총 손실이 줄어 듭니다. 즉, 데이터 포인트의 절반 이상이 손가락 오른쪽에 있으면 손가락을 오른쪽으로 이동해야합니다.δ δ
이로 인해 데이터 포인트의 절반이 해당 지점에 있고 절반이 오른쪽에있는 지점으로 손가락을 움직입니다. 그 지점은 중앙값입니다.
L1과 중앙값입니다. 불행히도, 나는 L2와 그 평균에 대한 비슷한 "모든 직관, 대수학"설명이 없습니다.
이 설명은 muratoa 와 Yves가 DW의 답변에 대한 의견을 요약 한 것입니다. 그것은 미적분학을 기반으로하지만, 간단하고 이해하기 쉽다는 것을 알았습니다.
있고 이를 기반으로 새로운 추정치 를 원한다고 가정하십시오 . 손실 의 미분을 0으로 만드는 를 찾을 때 가장 작은 손실이 얻어진다 . β β
∂L1
∂L2
훨씬 더 실용적인 예를 통해 DW의 답변에 추가 (L2 손실 기능도) :
서로 가까운 4 개의 집으로 구성된 작은 마을을 상상해보십시오 (예 : 10 미터). 그로부터 1km 거리에 다른 고립 된 집이 있습니다. 이제, 당신은 그 마을에 도착하여 어딘가에 자신의 집을 짓기를 원합니다. 당신은 다른 집들과 가깝게 살고 모든 사람들과 친구가되고 싶습니다. 이 두 가지 대안 시나리오를 고려하십시오.
집까지의 평균 거리가 가장 작은 위치에 있도록 결정합니다 (즉, L1 손실 기능 최소화).
따라서 마을에 집을 지으면 100 미터의 최저 평균 거리에 도달합니다. 보다 구체적으로,이 4 개 주택 가운데에 평균 거리를 몇 미터 더 확보하기 위해 집을 지을 것입니다. 그리고이 점이 " 중간 점 "이라는 것을 알 수 있습니다.이 중간 값 공식을 사용하여 비슷하게 얻을 수 있습니다.
예, 약간 반 직관적으로, 거리의 합을 최소화 할 때, 우리는 평균의 의미에서 "중간"으로 끝나지 않고 중앙값. 이것이 가장 인기있는 회귀 모델 중 하나 인 OLS가 절대 오차가 아닌 제곱 오차를 사용하는 이유의 일부입니다.
이미 게시 된 답변 (제게 도움이되었습니다!) 외에도 L2 규범과 평균 사이의 연결에 대한 기하학적 설명이 있습니다.
chefwen 과 동일한 표기법을 사용하려면 L2 손실 공식은 다음과 같습니다.
를 최소화하는 값을 찾고 싶습니다 . 곱하고 제곱근을 취하면 순서가 유지 되므로 이것은 다음을 최소화하는 것과 같습니다 .L 2 k
데이터 벡터 를 차원 공간 의 점으로 간주하면 이 공식은 점 와 점 사이의 유클리드 거리를 계산합니다. .
따라서 문제는 점 와 사이의 유클리드 거리를 최소화하는 값을 찾는 것 입니다. 의 가능한 값은 모두 정의상 과 평행 한 선에 있기 때문에 이것은 에서 의 벡터 투영을 찾는 것과 같습니다. .
일 때 이것을 시각화하는 것이 실제로 가능 하지만 인 예제가 있습니다. 그림과 같이 투영 하면 예상대로 산출 됩니다.
이 돌기는 항상 (때를 포함하여 평균 산출 것을 보여주기 위해 , 우리가 적용 할 수 있습니다) 투사 식 :