L1 회귀 분석은 중앙값을 추정하는 반면 L2 회귀 분석은 평균을 계산합니까?


24

그래서 나는 어느 중앙 측정치 L1 (즉, 올가미)와 L2 (즉, 능선 회귀)가 추정되는지에 대한 질문을 받았다. 답은 L1 = 중간 값이고 L2 = 평균입니다. 이것에 대한 직관적 인 추론이 있습니까? 아니면 대수적으로 결정해야합니까? 그렇다면 어떻게해야합니까?


4
L1 / L2는 목적 함수 또는 제약 조건을 참조하고 있습니까? 목적 함수 인 경우 L1 오류는 조건부 중앙값으로 최소화되고 L2는 조건부 평균으로 최소화됩니다. 제약 조건 (리지 / 라소 참조)이 이것에 대해 생각하는 잘못된 방법입니다. 그들의 "중앙 척도"는 여전히 조건부 평균을 목표로하지만 에 대해 다른 처벌을받습니다 . β
muratoa

답변:


24

L1 손실 함수가 중앙값을 생성하는 이유에 대한 간단한 기하학적 설명이 있습니다.

우리는 한 차원에서 일하고 있다는 것을 기억하십시오. 수평선이 수평으로 퍼져 있다고 상상해보십시오. 숫자 라인에 각 데이터 점을 플로팅합니다. 선 어딘가에 손가락을 대십시오. 손가락이 현재 후보 추정치가됩니다.

손가락을 오른쪽으로 조금 움직이면 오른쪽의 단위를 말합니다 . 총 손실은 어떻게됩니까? 음, 경우 손가락 두 개의 데이터 포인트 사이에, 그리고 당신이 데이터 포인트를 통해 이동, 당신은에 의해 총 손실을 증가했습니다 당신의 손가락의 왼쪽에 각 데이터 포인트 및하여 감소 각 데이터에 대한 손가락의 오른쪽을 가리 킵니다. 따라서 손가락보다 왼쪽에있는 것보다 많은 데이터 점이있는 경우 손가락을 오른쪽으로 움직이면 총 손실이 줄어 듭니다. 즉, 데이터 포인트의 절반 이상이 손가락 오른쪽에 있으면 손가락을 오른쪽으로 이동해야합니다.δ δδδδ

이로 인해 데이터 포인트의 절반이 해당 지점에 있고 절반이 오른쪽에있는 지점으로 손가락을 움직입니다. 그 지점은 중앙값입니다.

L1과 중앙값입니다. 불행히도, 나는 L2와 그 평균에 대한 비슷한 "모든 직관, 대수학"설명이 없습니다.


7
우리가 간단한 점 추정치에 대해 이야기하고 있다면 그것은 계산법입니다. ddβ1ni=1n(yiβ)2=21ni=1n(yiβ)=0β=1niy나는
muratoa

3
@ muratoa, 그렇습니다. 미적분학 파생을 알고 있지만 질문은 직관에 중점을두고 대수를 피하는 설명을 구체적으로 요구합니다. 나는 질문자가 미적분학 도출을 이미 알고 있지만 더 직관을 제공하는 것을 찾고 있다고 가정합니다.
DW

나는 OP가 회귀에 대해 언급했다고 생각했는데, 이는 최소 제곱을 사용하는 조건부 평균이고 평균 절대 오차에 대한 조건부 중앙값 인 x가 주어진 y의 추정치에 대해 이야기하고 있음을 시사한다고 생각했습니다. 동일한 설명이 작동하지만 문제는 약간 다릅니다. 평균에 대한 미적분학 설명은 매우 명확하고 간단합니다. 평균에 대한 설명은 중간 값에 대한 DW와 유사한 방식으로 제공 될 수 있습니다. 표본 평균은 모집단 평균에 대한 바이어스되지 않은 추정치입니다.
Michael R. Chernick

추정값을 샘플에서 멀어짐에 따라 바이어스의 증가로 인해 평균 제곱 오차가 변경됩니다. 추정값이 후보 추정값으로 표본 평균 에 d를 평균 제곱 오차는 실제로 d 만큼 증가 합니다. 2
Michael R. Chernick

11
L1 사례에 대해 muratoa가 제공하는 빠르고 더러운 대수 버전이 있습니다. 일 때를 제외하고WRT 인 이다 경우 및 경우 . 따라서 하는 경우를 제외하고, 이다 . 미분 사라지다 중 양극 및 음극 조건 동일한 수있다 대략 때 발생 말해서| y i - β | β - S g N ( Y I - β ) - 1 β < Y + 1 β > Y I의 Dβ=와이나는|와이나는β|β에스(와이나는β)1β<와이나는+1β>와이나는β y i y iβ β y iβ1나는|와이나는β|=1나는에스(와이나는β)β와이나는와이나는ββ 는 의 중앙값입니다 . 와이나는
Yves

17

이 설명은 muratoaYves가 DW의 답변에 대한 의견을 요약 한 것입니다. 그것은 미적분학을 기반으로하지만, 간단하고 이해하기 쉽다는 것을 알았습니다.

있고 이를 기반으로 새로운 추정치 를 원한다고 가정하십시오 . 손실 의 미분을 0으로 만드는 를 찾을 때 가장 작은 손실이 얻어진다 . β β와이1,와이2,...와이케이ββ

L1 손실

L1

1=1케이나는=1케이|와이나는β|
sgn(yi-β)yi>βyi<βyi-ββyi
1β=1케이나는=1케이에스(와이나는β)
에스(와이나는β) 한 경우이다 -1 때 . 사이에 동일한 수의 양수 및 음수 항이있는 경우 도함수는 0 과 . 즉, 는 의 중앙값이어야합니다 .와이나는>β와이나는<β와이나는ββ와이나는

L2 손실

L2

2=1케이나는=1케이(와이나는β)2
L2
2β=2케이나는=1케이(와이나는β)
βyi
2β=0β=1케이나는=1케이와이나는

L2 손실을 최소화하려면 는 의 평균이어야합니다 .β와이나는

3

훨씬 더 실용적인 예를 통해 DW의 답변에 추가 (L2 손실 기능도) :

서로 가까운 4 개의 집으로 구성된 작은 마을을 상상해보십시오 (예 : 10 미터). 그로부터 1km 거리에 다른 고립 된 집이 있습니다. 이제, 당신은 그 마을에 도착하여 어딘가에 자신의 집을 짓기를 원합니다. 당신은 다른 집들과 가깝게 살고 모든 사람들과 친구가되고 싶습니다. 이 두 가지 대안 시나리오를 고려하십시오.

  1. 집까지의 평균 거리가 가장 작은 위치에 있도록 결정합니다 (즉, L1 손실 기능 최소화).

    • 마을 중심에 집을두면 4 집에서 약 10 미터 떨어져 있고 한 집에서 1 킬로미터 떨어져 있습니다. 평균 거리는 약 200 미터입니다 (10 + 10 + 10 + 10 + 1000) / 5).
    • 마을에서 500m 떨어진 곳에 집을두면 5 개의 집에서 약 500m 떨어져 있으며 평균 거리는 500m입니다.
    • 집을 고립 된 집 옆에두면 마을에서 1km 떨어져 있고 (4 채) 1 채에서 약 10 미터 떨어져있어 평균 거리는 약 800 미터입니다.

    따라서 마을에 집을 지으면 100 미터의 최저 평균 거리에 도달합니다. 보다 구체적으로,이 4 개 주택 가운데에 평균 거리를 몇 미터 더 확보하기 위해 집을 지을 것입니다. 그리고이 점이 " 중간 점 "이라는 것을 알 수 있습니다.이 중간 값 공식을 사용하여 비슷하게 얻을 수 있습니다.

  2. 당신은 민주적 접근을하기로 결정했습니다. 당신은 당신의 미래의 이웃 다섯 사람에게 새 집을 위해 선호하는 위치를 물어 봅니다. 그들은 모두 당신을 좋아하고 당신이 그들과 가까이 살기를 원합니다. 그래서 그들은 모두 자신이 선호하는 위치를 자신의 집 바로 옆에 자리하게합니다. 당신은 당신의 다섯 이웃의 모든 투표 지역의 평균을 취하고 결과는 "마을에서 200 미터 떨어져"(평균 투표 : 0 + 0 + 0 + 0 + 1000/5 = 200)입니다 5 개 주택의 " 평균점 "은 평균 공식을 사용하여 유사하게 얻을 수 있습니다. 그리고이 위치는 제곱 거리의 합을 모방 한 것과 정확히 같은 것으로 판명되었습니다 (즉, L2 손실 함수). 수학을 보자.
    • 이 위치에서 제곱 거리의 합은 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000입니다.
    • 우리가 마을 중심에 집을 지으면 제곱 거리의 합은 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1000000입니다.
    • 우리가 마을에서 100 미터 떨어진 곳에 집을 짓면 (1과 같이) 제곱 거리의 합은 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000입니다.
    • 우리가 고립 된 집에서 100 미터 떨어진 곳에 집을 지으면 제곱 거리의 합은 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3250 000입니다.

예, 약간 반 직관적으로, 거리의 합을 최소화 할 때, 우리는 평균의 의미에서 "중간"으로 끝나지 않고 중앙값. 이것이 가장 인기있는 회귀 모델 중 하나 인 OLS가 절대 오차가 아닌 제곱 오차를 사용하는 이유의 일부입니다.


1

이미 게시 된 답변 (제게 도움이되었습니다!) 외에도 L2 규범과 평균 사이의 연결에 대한 기하학적 설명이 있습니다.

chefwen 과 동일한 표기법을 사용하려면 L2 손실 공식은 다음과 같습니다.

2=1케이나는=1케이(와이나는β)2

를 최소화하는 값을 찾고 싶습니다 . 곱하고 제곱근을 취하면 순서가 유지 되므로 이것은 다음을 최소화하는 것과 같습니다 .L 2 kβ2케이

나는=1케이(와이나는β)2

데이터 벡터 를 차원 공간 의 점으로 간주하면 이 공식은 점 와 점 사이의 유클리드 거리를 계산합니다. .와이케이와이β=(β,β,...,β)

따라서 문제는 점 와 사이의 유클리드 거리를 최소화하는 값을 찾는 것 입니다. 의 가능한 값은 모두 정의상 과 평행 한 선에 있기 때문에 이것은 에서 의 벡터 투영을 찾는 것과 같습니다. .β와이ββ1=(1,1,...,1)와이1

일 때 이것을 시각화하는 것이 실제로 가능 하지만 인 예제가 있습니다. 그림과 같이 투영 하면 예상대로 산출 됩니다.케이=2와이=(2,6)1(4,4)

베타에 투영 된 벡터 y

이 돌기는 항상 (때를 포함하여 평균 산출 것을 보여주기 위해 , 우리가 적용 할 수 있습니다) 투사 식 :케이>2

β=프로젝트1와이=와이1|1|21β=나는=1케이와이나는케이
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.