선형 회귀 분석에서 가설과 입력 데이터 포인트 간의 수직 거리를 기반으로 비용 함수를 사용하는 이유는 무엇입니까?


14

입력 (예측 자) 및 출력 (응답) 데이터 포인트 A, B, C, D, E가 있고 포인트를 통해 선을 맞추고 싶다고 가정 해 봅시다. 이것은 문제를 설명하기위한 간단한 문제이지만 더 높은 차원으로 확장 될 수도 있습니다.

문제 설명

여기에 이미지 설명을 입력하십시오

현재 최상의 적합 또는 가설은 위 의 검은 선으로 표시됩니다 . 파란색 화살표 ( )는 데이터 포인트와 현재 가장 적합한 사이의 수직 거리를 나타내며, 포인트에서 선과 교차 할 때까지 수직선을 그립니다.

녹색 화살표 ( )는 교차점에서 현재 가설에 직각으로 그려 지므로 데이터 점과 현재 가설 사이의 최소 거리를 나타냅니다. 점 A와 B의 경우 현재 최고의 추측에 수직이되고 x 축에 수직 인 선과 유사한 선이 그려집니다. 이 두 점의 경우 파란색과 녹색 선이 겹치지 만 점 C, D 및 E에는 해당되지 않습니다.

최소 제곱 원리는 주어진 훈련주기에서 데이터 포인트 (A, B, C, D 또는 E)를 통해 추정 된 가설 ( ) 까지 수직선을 그려 선형 회귀에 대한 비용 함수를 정의합니다. 로 표시되며

CostFunction=i=1N(yihθ(xi))2

여기서 는 데이터 포인트를 나타내고 는 가장 적합한 것을 나타냅니다.(xi,yi)hθ(xi)

점 (A, B, C, D 또는 E) 사이의 최소 거리는 해당 점에서 현재 최고 추측 (녹색 화살표)까지 그려진 수직선으로 표시됩니다.

최소 제곱 함수의 목표는 최소화 될 때 가설과 결합 된 모든 점 사이의 최소 거리를 발생 시키지만 가설과 단일 입력 점 사이의 거리를 반드시 최소화하지는 않는 목적 함수를 정의하는 것입니다.

**질문**

선형 회귀에 대한 비용 함수를 입력 데이터 포인트와 ( 의해 주어진 입력 데이터 포인을 통과하는 가설 (가설에 수직 인 선으로 정의) 사이의 최소 거리로 정의하지 않는 이유는 무엇입니까? )?


5
단순 선형 회귀 분석은 관측치의 x 좌표 값에 오류가 없다고 가정합니다 (예 : 실험 조작이므로). x 축에 오류가있는 경우 제안한 것과 유사한 비용 함수를 최소화하여 오류를 설명 할 수 있습니다. 이를 위해서는 x 및 y 축의 오차 분산 간의 비율을 설정해야합니다. 비율이 이면 점과 선 사이의 수직 거리를 최소화합니다 (직교 회귀). 만약 비율 그것이라고 간주하는 회귀=11
마테오

PCA에이 포스트를보십시오 : cerebralmastication.com/2010/09/…
James

답변:


13

종속 변수 (수직 오류)와 독립 변수 (수평 오류) 모두에 노이즈가있는 경우 최소 제곱 목적 함수를 수정하여 이러한 수평 오류를 통합 할 수 있습니다. 이 두 가지 유형의 오류를 가중시키는 방법의 문제. 이 가중치는 일반적으로 두 오류의 분산 비율에 따라 다릅니다.

  1. 수직 오차의 분산이 수평 오차의 분산에 비해 극히 큰 경우 OLS가 정확합니다.
  2. 수평 오차의 분산이 수직 오차의 분산에 매우 큰 상대 인 경우, 최소 제곱 (여기서 역은 에 회귀한다 에 대한 상기 추정 계수의 역 의 추정치로서 사용된다 ) 적절한 .y yxyyβ
  3. 수직 오차의 분산 대 수평 오차의 분산의 비가 종속 및 독립 변수의 분산의 비와 동일한 경우, "대각선"회귀의 경우가 있습니다. OLS 및 최소 제곱 추정기의 기하 평균입니다.
  4. 이러한 오차 분산의 비율이 1이면 "직교"회귀 분석의 경우가 있으며, 추정 라인에 수직 인 선을 따라 측정 된 제곱 오차의 합이 최소화됩니다. 이것이 당신이 생각한 것입니다.

실제로,이 절차의 가장 큰 단점은 오차 분산의 비율이 일반적으로 알려져 있지 않으며 일반적으로 추정 할 수 없기 때문에 경로가 명확하지 않다는 것입니다.


첫 문장에서 "종속"을 "독립"으로 변경하려고 편집했지만 편집은 6 자 여야합니다. 어쩌면 오타를 수정하기 위해 답변을 업데이트 하시겠습니까?
라이언 스타우트

@RyanStout 감사합니다. 공백을 삽입하면 주변을 둘러 쌀 수 있다고 생각합니다.
Dimitriy V. Masterov

이제 약간 혼란 스럽습니다. 수직 오류가 종속 변수 (y)의 오류와 독립 변수 (x)의 가로 오류가 아닌가?
라이언 스타우트

@RyanStout 나는 다시 엉망
Dimitriy V. Masterov에게

9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)

그건 좋은 지적이야. 나는 일반적으로 비용 함수를 계산하는 방법을 생각하고있었습니다.
alpha_989

점과 비선형 평면 / 표면 사이의 거리를 평가하는 방법이 확실하지 않지만 점과 선형 표면 / 평면 사이의 거리를 평가하려면 중첩 최소화가 필요하지 않을 수 있습니다. mathinsight.org/distance_point_plane
alpha_989

둘째, 회귀를 사용할 때 목표는 가중치를 평가하여 가장 적합한 것을 찾는 것입니다. 내가 이해 한 바에 따르면 실제 계산 중에 비용 함수를 거의 평가하지 않지만 비용 함수의 파생 상품은 무엇입니까?
alpha_989

1
@whuber. 내가 참조. 일단 우리가 그 두 용어에 대해 그 의미를 확립하면, 해결되는 문제가 다르다는 것에 동의합니다 (x에 오류가있을 가능성이 있는지 없는지). 나는 당신이 그 용어의 의미에 대해 지식이 풍부한 사람들로부터 광범위한 동의를 얻을 것이라고 생각하지 않지만 그것은 부수적입니다.
확률 론적

1
@Stochastic 나는 "곡선 피팅 (curve fitting)"의 개념에 대해 모호함이있을 수 있다는 데 동의하지만, 내가 부르고있는 회귀의 개념은 최고의 권위자들이 쓴 글로 나타난다.
whuber

2

지나치게 단순화 된 버전은 X에 오류가없는 것으로 가정합니다. 예를 들어 플롯에서 점 E를 보면 X 좌표가 정확하게 정확하다고 가정합니다. 일반적으로 X를 제어 할 수있는 경우, 즉 특정 값으로 설정할 수있는 경우입니다. 이 경우 존재할 수있는 유일한 오류는 Y 방향이므로 오류 / 비용 함수에는 Y 방향 만 포함됩니다.

그렇지 않을 때마다 X를 제어 할 수 없을 때마다 X에 오류가있을 수 있습니다. 사람들은 X 방향을 오류 기능에 유형 II 또는 모델 II 회귀 및 그 변형이라고합니다. X와 Y의 스케일이 다르면이 작업을 수행하기 까다로울 수 있으므로 정규화 등에 대해 생각해야합니다.


1

prosaic의 위험에, 오류 함수의 이유는 표준 해석이 x가 주어지고 하나는 y 성분을 가장 잘 묘사 (또는 예측)하려고하기 때문입니다. 따라서 'x'에는 오류가 없습니다. 예를 들어, 오늘의 종가를 기준으로 내일 주식의 종가를 이해하고 예측할 수 있습니다. 마찬가지로 오늘날의 평균 온도로 내일의 평균 온도를 이해하려고 시도 할 수 있습니다. 분명히 이러한 예는 단순한 생각이지만 아이디어입니다. 우연히 대부분의 사람들이 알지 못하는 것이 있지만, 귀하의 예에서 분명하다고 생각합니다 .x에 대해 y를 회귀하면 회귀 선은 x에 대해 y의 회귀와 특별한 유사성을 가질 필요가 없습니다. 직교 회귀는 선으로부터 점의 거리를 최소화하는 선을 찾으려고하는 회귀의 용어입니다. 예를 들어, IBM 주식 가격과 AAPL 주식 가격 간의 관계를 이해하려는 경우 적절한 방법이됩니다.


1

점을 통과하는 선을 맞출 때 직교 거리는 임의의 선에 적용 할 수있는 가장 자연스러운 손실 함수입니다 (y- 거리는 x 축에 직각 인 선에 대해서는 의미가 없음에 유의하십시오). 이 문제는 많은 이름, 예를 들어 "직교 회귀"또는 (가장 많이 사용되는 용어 AFAIK) "주성분 분석"(PCA)으로 알려져 있습니다. 임의의 차원에서이 문제에 대한 설명은 다음을 참조하십시오.

Späth : "선형 매니 폴드에 맞는 직교 최소 사각형." Numerische Mathematik 48, pp. 441–445, 1986

@aginensky가 이미 지적했듯이 선형 회귀의 기본 개념은 점을 통과하는 선이 아니라 주어진 x 값의 y 값 을 예측하는 것 입니다. 그렇기 때문에 y의 거리 만 사용됩니다. 이것이 예측 정확도입니다.

x(t)pii=1Nt

Wang, Pottmann, Liu : "곡률 기반 제곱 거리 최소화로 구름을 가리 키도록 B- 스플라인 곡선 맞추기" 그래픽 25.2, 214-238, 2006 년의 ACM 트랜잭션

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.