회귀를 "선형"으로 간주 할 수있는 (적어도) 세 가지 의미가 있습니다. 그것들을 구별하기 위해, 매우 일반적인 회귀 모델부터 시작하겠습니다
Y=f(X,θ,ε).
토론을 간단하게 유지하려면 독립 변수 를 고정하고 정확하게 측정해야합니다 (임의 변수가 아닌). 그들은 각각 속성 의 관측 값을 모델링 하여 응답 의 벡터를 생성 합니다. 통상적으로, 는 행렬로, 는 열 벡터로 표현된다. (finite vector) 는 매개 변수로 구성 됩니다 . 은 벡터 값 랜덤 변수입니다. 그것은 일반적으로n p n Y X n × p Y n q θXnpnYXn×pYnqθNεn구성 요소가 있지만 때로는 더 적습니다. 함수 는 벡터 값을 ( 구성 요소가 와 일치 ) 일반적으로 마지막 두 인수 ( 및 ) 에서 연속적인 것으로 가정 합니다.n Y θ εfnYθε
데이터에 선을 맞추는 전형적인 예 는 가 숫자 벡터 . x 값; 는 수 의 평행 벡터이며 ; 는 인터셉트 및 기울기 ; 및 성분 독립 (통상의 제로 평균과 동일하지만, 미지의 분포를 갖는 것으로 가정)이다 "랜덤 에러」의 벡터이다. 앞의 표기법에서X ( x i ,(x,y)XY n ( y i ) θ = ( α , β ) α β ε = ( ε 1 , ε 2 , … , ε n )(xi,i=1,2,…,n)Yn(yi)θ=(α,β)αβε=(ε1,ε2,…,εn)
yi=α+βxi+εi=f(X,θ,ε)i
함께 .θ=(α,β)
회귀 함수는 세 가지 인수 중 하나 (또는 모두)에서 선형 일 수 있습니다.
"선형 회귀 또는"선형 모델 "은 일반적으로 가 매개 변수 의 함수로 선형 임을 의미합니다 . "비선형 회귀 " 의 SAS 의미는 이러한 의미에서 가 두 번째로 차별화 될 수 있다는 가정이 추가되었습니다. 인수 (매개 변수).f θf
" 와 사이의 선형 관계 "는 가 의 함수로서 선형 임을 의미 합니다.Y f XXYfX
ε 에서 f 가 선형 일 때 모형에 가산 오차 가 있습니다. 이러한 경우 항상 E ( ε ) = 0 이라고 가정합니다 . (그렇지 않으면, ε 을 "올바른"값에서 "오류"또는 "편차"로 생각하는 것은 옳지 않습니다 .)fεE (ε)=0ε
이러한 특성의 모든 가능한 조합이 발생할 수 있으며 유용합니다. 가능성을 조사하자.
가산 오차와 선형 관계의 선형 모형. 이것은 보통 (복수) 회귀이며, 위에서 이미 보여졌으며보다 일반적으로
와이=Xθ + ε .
필요한 경우 상수 열에 인접하여 X 가 확장되었으며 θ 는 p- 벡터입니다.엑스θ피
가산 오차와 비선형 관계의 선형 모형. 이는의 열을 보강하여 회귀로 누이 수 비선형 함수 X 자체. 예를 들어엑스엑스
와이나는= α + β엑스2나는+ ε
이 형태입니다. 에서 선형이며 ; 추가 오류가 있습니다. x 2 i 가 x i 의 비선형 함수 임에도 불구 하고 값 ( 1 , x 2 i ) 에서 선형 입니다.θ = ( α ,β)( 1 , x2나는)x2ixi
비가 산 오차와 선형 관계의 선형 모형. 예는 곱셈 오류입니다.
yi=(α+βxi)εi.
(이러한 경우, 의 위치 가 1 일 때 ε i 는 "곱셈 오류"로 해석 될 수 있습니다 . 그러나 올바른 위치 감지가 더 이상 예상 E ( ε i ) 일 필요는 없습니다 . 예를 들어 기하 평균. 위치 가정에 대한 유사한 주석이 적용 준용을 너무 다른 모든 비 첨가제 - 오류 상황에서,.)εiεi1E(εi)
비가 산 오차와 비선형 관계의 선형 모형. 예를 들어 ,
yi=(α+βx2i)εi.
가산 오차와 선형 관계의 비선형 모델. 비선형 모델에는 비선형 일뿐만 아니라 매개 변수를 다시 표현하여 선형화 할 수없는 매개 변수 조합이 포함됩니다 .
A와 비 예를 들어, 고려
yi=αβ+β2xi+εi.
정의함으로써 및 β를 ' = β (2) , 및 규제 β ' ≥ 0 이 모델은 다시 작성 될 수있다α′=αββ′=β2β′≥0
yi=α′+β′xi+εi,
(가산 오차와 선형 관계의) 선형 모델로 표시합니다.
AS를 예를 들어, 고려
yi=α+α2xi+εi.
이 새로운 파라미터 찾을 수 없다 에 따라 α , 즉,의 함수로이를 선형화 α ' (이것은 선형 유지하면서 X 난을 아니라 참조).α′αα′xi
가산 오차와 비선형 관계의 비선형 모델.
yi=α+α2x2i+εi.
비가 산 오차가있는 선형 관계의 비선형 모델.
yi=(α+α2xi)εi.
비가 산 오차가있는 비선형 관계의 비선형 모델.
yi=(α+α2x2i)εi.
이것들은 여덟 가지 다른 형태 의 회귀를 나타내지 만 , 어떤 형태는 다른 형태로 변환 될 수 있기 때문에 분류 체계를 구성하지 않습니다 . 표준적인 예는 비가 산 오차를 가진 선형 모델의 변환입니다 (긍정적 인 지원이 있다고 가정)
yi=(α+βxi)εi
대수를 통해 가산 오차를 갖는 비선형 관계의 선형 모델로
log(yi)=μi+log(α+βxi)+(log(εi)−μi)
여기에서 로그 기하 평균 는 오류 조건에서 제거되어 (필요에 따라 0의 평균을 갖도록) 다른 용어에 통합되었습니다 (값을 추정해야하는 경우). ). 실제로 종속 변수 Y 를 다시 표현해야하는 주요 이유 중 하나 는 가산 오차가있는 모형을 만드는 것입니다. 재 발현은 또한 매개 변수 및 설명 변수 중 하나 (또는 둘 다)의 함수로서 Y 를 선형화 할 수있다 .μi=E(log(εi))YY
공선 성
( 의 열 벡터) 공선 성은 모든 형태의 회귀 에서 문제가 될 수 있습니다 . 이를 이해하는 열쇠는 공선 성이 모수 추정에 어려움을 초래한다는 것을 인식하는 것입니다. 추상적이고 매우 일반적으로, 두 개의 모델 Y = f ( X , θ , ε ) 와 Y = f ( X ' , θ , ε ′ )를 비교합니다. 여기서 X ' 는 하나의 열이 약간 변경된 X 입니다. 이것이 추정치에 막대한 변화를 유발한다면XY=f(X,θ,ε)Y=f(X′,θ,ε′)엑스'엑스 와 θ ', 다음 분명히 우리는 문제가있다. 이 문제가 발생할 수있는 한 가지 방법은X에서 선형 인 선형 모델(위의 유형 (1) 또는 (5))에서θ의 성분이X의 열과 일대일로 일치하는 것입니다.. 하나의 열이 다른 열의 사소한 선형 조합 인 경우 해당 매개 변수의 추정치는 임의의 실수 일 수 있습니다. 그것은 그러한 감도의 극단적 인 예입니다.θ^θ^'엑스θ엑스
이 관점에서 공선 성은 비선형 관계의 선형 모델에 대한 잠재적 인 문제 (오류의 가산 성에 관계 없이)이고이 일반화 된 공선 성 개념은 모든 회귀 모형에서 잠재적으로 문제 라는 것이 분명해야합니다 . 중복 변수가 있으면 일부 매개 변수를 식별하는 데 문제가 있습니다.