선형 회귀 모델 또는 비선형 회귀 모델 사이에서 결정


10

선형 회귀 모델 또는 비선형 회귀 모델을 사용하려면 어떻게 결정해야합니까?

나의 목표는 Y를 예측하는 것입니다.

간단한 및 데이터 집합의 경우 산점도를 그려 어떤 회귀 모델을 사용해야하는지 쉽게 결정할 수 있습니다.yxy

같은 다중 변이체 경우 및 . 어떤 회귀 모델을 사용해야하는지 어떻게 알 수 있습니까? 즉, 간단한 선형 모델 또는 2 차, 3 차 등과 같은 비선형 모델을 사용하려면 어떻게해야합니까? yx1,x2,...xny

어떤 회귀 모델을 사용하고 추론 할 수있는 기술이나 통계적 접근 또는 그래픽 도표가 있습니까?


"비선형 모델"은 꽤 광범위한 범주입니다. 염두에 두었습니까? 분석 목표는 무엇입니까?
shadowtalker

이것은 당신의 목표에 달려 있습니다. 예측 / 예측 모델을 구축하고 있습니까?
Aksakal

예측은 나의 목표입니다.
shakthydoss

1
"데이터 플로팅"접근 방식과 유사하지만 여러 예측 변수에 대해 여러 가지 값을 갖는 변수 플롯이 추가되었습니다. 그러나 목표가 예측이라면 문제는 데이터를 기반으로 git 할 것을 선택한다는 것입니다. 따라서 다른 데이터보다 다른 데이터보다 더 나은 데이터를 볼 수 있습니다. 모델 선택에 대한 접근 방법)-표본 예측 능력을 적절하게 평가하려면 홀드 아웃 표본에 대한 사항을 평가하고 교차 검증과 같은 것을 고려해야합니다.
Glen_b-복지 주 모니카

1
얼마 전에 시작한 관련 토론 이 유용 할 수 있습니다 .
Aleksandr Blekh

답변:


10

이것은 모델 선택이라는 통계 영역입니다. 이 분야에 대한 많은 연구가 이루어졌으며 명확하고 쉬운 대답은 없습니다.

및 있고 모델에 항을 포함시켜야하는지 알고 싶다고 가정합니다 . 이와 같은 상황에서는 더 복잡한 모델이 더 복잡한 모델에 중첩됩니다. 즉, 변수 및 ( 모델)은 변수 및 (복잡한 모델) 의 하위 집합입니다 . 모델 구축에는 다음 두 가지 주요 목표 중 하나 이상이 있습니다.X1,X2X3X32X1,X2X3X1,X2,X3X32

  1. 데이터 설명 : 당신이 이해하려고하는 방법 일부 변수 세트는 응답 변수에 영향을 미치거나 당신이 방법에 관심이 효과 하는 동안의 효과를 통제X1YX2,...Xp
  2. 예측 : 모형에 몇 개의 변수가 있는지에 관계없이 를 정확하게 예측하려고합니다.YY

목표가 1 번인 경우 가능성 비율 테스트 (LRT)를 권장합니다. LRT는 모델이 중첩되어 있고 "유사 모델보다 복잡한 모델에서 데이터가 상당히 많이 나오는가?"를 알고 싶을 때 사용됩니다. 이를 통해 데이터 간의 관계를 더 잘 설명하는 모델에 대한 통찰력을 얻을 수 있습니다.

목표가 2 번이면 데이터 크기에 따라 일종의 교차 검증 (CV) 기술 ( 폴드 CV, 일대일 이력서, 시험 훈련 CV)을 권장 합니다. 요약하면 이러한 방법은 데이터의 하위 집합에 대한 모델을 작성하고 나머지 데이터의 결과를 예측합니다. 나머지 데이터를 가장 잘 예측하는 모델을 선택하십시오.k


목표 (1)과 (2)의 차이를 더 두드러지게 설명 / 설명해 주시겠습니까? 현재 큰 차이가 없습니다.
ttnphns

@ttnphns 두 가지 목표에 대한 간단한 설명을 추가했습니다.
TrynnaDoStat

@TrynnaDoStat이 문장에 의해 혼동 될 수 있습니다 . 최선의 작업 예측을 수행하는 모델을 선택하십시오. 최고의 모델이란 선형 (parsimonious) 모델과 복잡한 모델 중에서 선택하는 것을 의미합니다. 내가 아는 것은 k- 폴드이므로, one-out-out CV는 보이지 않는 데이터의 모델 성능을 확인하는 데 사용됩니다. 모델 선택에는 사용되지 않습니다. 혼란 스러워요.
tushaR

1

"회귀에 대한 선형 또는 비선형 모델"에 대해 Google을 검색하면이 책으로 연결되는 링크가 나타납니다. http://www.graphpad.com/manuals/prism4/RegressionBook.pdf 이 책은 흥미롭지 않습니다. 어떤 이유로 100 %를 신뢰하지 마십시오.

나는 또한이 기사를 발견했다 : http://hunch.net/?p=524 제목 : 거의 모든 자연 문제에는 비선형 성이 필요하다

나는 또한 꽤 좋은 설명과 비슷한 질문을 발견했다 : https : //.com/questions/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

내 경험에 따르면 어떤 모델을 사용하는지 모르는 경우 두 가지를 모두 사용하고 다른 기능을 사용해보십시오.


0

설명하면 선형 모델은 일반적으로 비선형 모델보다 단순합니다. 즉, 더 빠르게 실행 (빌드 및 예측)하고 해석 및 설명이 쉽고 오류 측정이 간단합니다. 따라서 목표는 선형 회귀 가정이 데이터와 일치하는지 확인하는 것입니다 (선형을 지원하지 않으면 비선형으로 진행하십시오). 일반적으로 다른 모든 변수를 일정하게 유지하면서 모든 변수에 대해 단일 변수 플롯을 개별적으로 반복합니다.

그러나 더 중요한 것은 데이터를 선형 공간으로 이동하기 위해 일종의 변환, 변수 상호 작용 또는 더미 변수를 적용 할 수 있는지 알고 싶을 것입니다. 가정의 유효성을 검증 할 수 있거나, 동기가 있거나 지능적으로 정보가 풍부한 변환 또는 수정을 적용하기에 충분한 데이터를 알고있는 경우 해당 변환을 진행하고 선형 회귀를 사용하려고합니다. 잔차가 있으면 비선형 방법으로 이동해야하는지 여부를 추가로 결정하기 위해 잔차를 예측 된 값 또는 독립 변수와 비교할 수 있습니다.

듀크 (Duke) 에는 선형 회귀 가정이 훌륭하게 정리되어 있습니다 . 네 가지 주요 가정이 나열되어 있으며 각 가정은 모델에 미치는 영향, 데이터에서 모델을 진단하는 방법 및 가정을 유지하기 위해 데이터를 "고정"(즉, 변환 또는 추가) 할 수있는 잠재적 방법으로 분류됩니다. 다음은 해결 된 네 가지 가정을 요약 한 상단에서 발췌 한 것이지만, 여기에 가서 분석을 읽어야합니다.

추론 또는 예측의 목적으로 선형 회귀 모델의 사용을 정당화하는 네 가지 주요 가정이 있습니다.

(i) 종속 변수와 독립 변수 사이의 관계의 선형성과 가산 성 :

(a) 종속 변수의 기대 값은 각 독립 변수의 직선 함수이며 다른 변수는 고정되어 있습니다.

(b) 해당 선의 기울기는 다른 변수의 값에 의존하지 않습니다.

(c) 종속 변수의 기대 값에 대한 다른 독립 변수의 효과는 부가 적이다.

(ii) 오차의 통계적 독립성 (특히, 시계열 데이터의 경우> 연속 오차 사이의 상관 관계 없음)

(iii) 오차의 동질성 (일정한 분산)

(a) 시간 대 (시계열 데이터의 경우)

(b) 예측

(c) 독립 변수와 비교

(iv) 오차 분포의 정규성.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.