회귀 분석에서 B- 스플라인 VS 고차 다항식


10

구체적인 예나 과제가 없습니다. b- 스플라인 사용에 익숙하지 않아서 회귀 컨텍스트에서이 기능을 더 잘 이해하고 싶었습니다.

반응 변수 와 일부 예측 변수 의 관계를 평가한다고 가정합니다 . 예측 변수에는 몇 가지 숫자 변수와 범주 형 변수가 포함됩니다.yx1,x2,...,xp

회귀 모델을 피팅 한 후 과 같은 숫자 변수 중 하나 가 중요하다고 가정합니다. 논리적 단계는 과적 합없이 관계를 적절히 설명 하기 위해 고차 다항식 (예 : 및 이 필요한지 여부를 평가하는 것 입니다.x1x12x13

내 질문은 :

  1. 어떤 시점에서 b- 스플라인 또는 간단한 고차 다항식 중에서 선택 했습니까? 예를 들어 R에서 :

    y ~ poly(x1,3) + x2 + x3
    

    vs

     y ~ bs(x1,3) + x2 + x3
    
  2. 플롯을 사용하여이 둘 사이의 선택을 알리는 방법과 플롯에서 실제로 명확하지 않은 경우 어떻게되는지 (예 : 대량의 데이터 포인트로 인해)

  3. 와 의 양방향 상호 작용 항을 어떻게 평가 하시겠습니까?x2x3

  4. 위의 모델 유형에 따라 어떻게 변경됩니까?

  5. 고차 다항식을 사용하지 않고 항상 b- 스플라인을 피팅하고 높은 유연성을 페널티하는 것을 고려 하시겠습니까?


9
나는 여기에 광범위하게 썼다 : madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury

개발 mgcv이 얼마나 잘 되었는가? 매끄러움 선택은 자동이며 추론적인 방법이 잘 개발되었습니다.
generic_user

답변:


17

나는 일반적으로 다항식보다는 스플라인 만 고려합니다. 다항식은 임계 값을 모형화 할 수없고 종종 바람직하지 않은 전역 적입니다. 즉 예측 변수의 한 범위에서의 관측치가 다른 범위에서의 모형이 수행하는 작업에 큰 영향을 미칩니다 ( Magee, 1998, 미국 통계 학자 및 Frank Harrell의 회귀 모델링 전략 ). 물론 극한의 매듭 바깥쪽에 선형 인 제한된 스플라인은 외삽 또는 예측 자의 극한 값에서의 내삽에 더 좋습니다.

다항식을 고려할 수있는 한 가지 경우는 기술이 아닌 독자에게 모델을 설명하는 것이 중요 할 때입니다. 사람들은 스플라인보다 다항식을 더 잘 이해합니다. (편집 : Matthew Drury 는 사람들 이 스플라인보다 다항식을 더 잘 이해 한다고 생각할있다고 지적합니다 . 나는이 질문에 대해서는 고려하지 않을 것입니다.)

플롯은 비선형 성을 다루는 다른 방법을 결정하는 데 종종 유용하지 않습니다. 교차 유효성 검사를 수행하는 것이 좋습니다. 또한 상호 작용을 평가하거나 좋은 벌칙을 찾는 데 도움이됩니다.

마지막으로 위의 포인트는 통계 또는 ML 모델에 유효하기 때문에 모델의 종류에 따라 대답이 변경되지 않습니다.


답변 해 주셔서 감사합니다. 매우 도움이되었습니다. 간단한 후속 질문입니다. 매듭을 찾는 "최신 기술"방법이 있습니까? 내 최선의 추측은 1) 직관을 사용하십시오. 예 : 변수가 시간을 월 단위로 나타내는 경우 매 6 또는 12마다 매듭을 사용합니까? 2) 변수의 범위를 통과하는 시퀀스를 도입하고 교차 검증을 사용하여 최적의 노트를 찾을 수 있습니까?
Vasilis Vasileiou

8
사람들 스플라인보다 다항식을 더 잘 이해 한다고 생각 합니다.
Matthew Drury

3
매듭 배치와 관련하여 : 교차 검증은 하나의 접근 방식이지만, 솔직히 말해서, 매듭이 합리적으로 배치되고 너무 많이 묶이지 않는 한 결과는 배치를 알기에 무의미하다고 생각합니다. Frank Harrell은 회귀 모델링 전략 에서 예측 변수 분포의 Quantile 측면에서 휴리스틱 매듭 배치 테이블을 가지고 있습니다.
Stephan Kolassa

1
이 맥락에서 귀하의 답변은 완전히 유효하지만, 많은 실제 프로세스가 다항식으로 더 잘 모델링 될 수 있다는 점을 고려하면 귀하의 진술은 매우 강력합니다.
koalo

6

"통계 학습의 요소"섹션 7.4.5에서 스플라인은 다항식 회귀보다 우수한 결과를 제공한다고합니다.

  • 유연한 피팅을 생성합니다.
  • 보다 안정적인 추정치를 생성합니다.
  • 다항식은 경계에서 바람직하지 않은 결과를 생성 할 수 있습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.