통계 모델에서 비선형성에 대한 기준과 의사 결정은 무엇입니까?


10

다음과 같은 일반적인 질문이 이해 되기를 바랍니다 . 이 특정 질문의 목적 상 나는 비선형 성을 도입하는 이론적 (주체 영역) 이유에 관심이 없다는 것을 명심하십시오. 따라서 다음과 같이 전체 질문 을 공식화합니다 .

이론적 (주체 영역) 이외의 이유로 통계 모델에 비선형 성을 도입하기위한 논리적 프레임 워크 ( 기준 및 가능한 경우 의사 결정 프로세스 )는 무엇입니까? 항상 그렇듯이 관련 자료와 참고 자료도 환영합니다.

답변:


7

모델 구축 프로세스에는 많은 결정을 내리는 모델 빌더가 포함됩니다. 결정 중 하나는 탐색 할 여러 모델 클래스 중에서 선택하는 것 입니다. 고려할 수있는 많은 종류의 모델이 있습니다. 예를 들어 ARIMA 모델, ARDL 모델, 다중 오류 상태 공간 모델, LSTAR 모델, Min-Max 모델 등이 있습니다. 물론, 일부 모델 클래스는 다른 클래스보다 광범위하며 일부 모델 클래스 가 다른 클래스하위 클래스라는 것은 일반적이지 않습니다 .

문제의 본질을 감안할 때, 우리는 주로 두 가지 클래스의 모델에만 집중할 수 있습니다. 선형 모델비선형 모델 .

위의 그림을 염두에두고 비선형 모델을 채택하는 것이 유용한시기와이를위한 논리적 프레임 워크가 있는지에 대한 OPs 문제를 통계적 및 방법 론적 관점에서 다루겠습니다.

가장 먼저 주목할 것은 선형 모델은 비선형 모델의 작은 하위 클래스라는 것입니다. 즉, 선형 모델은 비선형 모델의 특수한 경우입니다. 그 진술에는 몇 가지 예외가 있지만, 현재의 목적으로, 우리는 문제를 단순화하기 위해 그것을 받아들임으로써 많은 것을 잃지 않을 것입니다.

일반적으로 모델 빌더는 모델 클래스를 선택하고 일부 방법론을 사용하여 특정 클래스 내에서 모델을 선택합니다. 간단한 예는 ARIMA 프로세스로 시계열을 모델링 한 다음 Box-Jenkins 방법론에 따라 ARIMA 모델 클래스에서 모델을 선택하는 경우입니다. 이러한 방식으로 모델 패밀리와 관련된 방법론을 사용하는 것은 실질적인 필요성의 문제입니다.

비선형 모델을 구축하기로 결정한 결과, 더 작은 선형 모델 중에서 선택하는 것과 비교할 때 모델 선택 문제가 훨씬 커지고 (더 많은 모델을 고려해야하고 더 많은 결정에 직면하게 됨) 실제적인 문제. 더욱이, 일부 비선형 모델 군에서 선택하기 위해 사용할 완전히 개발 된 방법론 (알려지고, 받아 들여지고, 이해되고, 의사 소통하기 쉬운)이 없을 수도 있습니다. 또한 비선형 모델을 구축 할 때의 또 다른 단점은 선형 모델을 사용하기 쉽고 확률 적 속성을 더 잘 알고 있다는 것입니다 ( Teräsvirta, Tjøstheim 및 Granger (2010) ).

그러나 OP는 실용적이거나 도메인 이론적 결정보다는 결정을 안내하는 통계적 근거를 요구하므로 계속 진행해야한다.

작업 할 비선형 모델 선택을 처리하는 방법을 고려하기 전에 먼저 선형 모델 또는 비선형 모델을 사용할지 결정해야합니다. 결정! 이 선택을하는 방법?

Granger와 Terasvirta (1993) 에게 호소함으로써 다음 두 가지 질문에 대한 두 가지 주요 요점을 갖는 다음과 같은 주장을 채택합니다.

Q : 비선형 모델을 만드는 것이 언제 유용한가요? 요컨대, 선형 모델의 클래스가 이미 검사 중 관계를 특성화하기에 충분하지 않은 것으로 간주되고 간주 될 때 비선형 모델을 작성하는 것이 유용 할 수 있습니다. 이 비선형 모델링 절차 (의사 결정 과정)는 선형에서 비선형으로 진행된다는 의미에서 단순에서 일반으로 진행될 수 있습니다.

Q : 비선형 모델 구축을 정당화하는 데 사용할 수있는 통계적 근거가 있습니까? 선형성 테스트 결과를 기반으로 비선형 모델을 작성하기로 결정했다면, 그렇습니다. 선형성 테스트에서 관계에 유의미한 비선형 성이 없음을 시사하는 경우 비선형 모델을 작성하지 않는 것이 좋습니다. 테스트는 구축 결정에 앞서야합니다.

나는 Granger와 Terasvirta (1993)를 직접 참조하여이 점들을 설명 할 것이다.

비선형 모델을 작성하기 전에 실제로 선형 모델이 분석중인 [경제적] ​​관계를 적절히 특성화하는지 확인하는 것이 좋습니다. 이 경우 비선형 모델이 적절한 경우보다 합리적인 모델을 구축 할 수있는 통계 이론이 더 많을 것입니다. 또한, 모형이 선형 인 경우 한주기 이상의 최적 예측치를 얻는 것이 훨씬 간단합니다. 변수 간의 실제 관계가 선형이지만 조사자가 비선형 모델을 성공적으로 추정하는 것은 적어도 시계열이 짧은 경우에 발생할 수 있습니다. 따라서 모델 구축을 불필요하게 복잡하게 만드는 위험은 실제로 발생하지만 선형성 테스트를 통해 줄일 수 있습니다.

가장 최근의 저서 인 Teräsvirta, Tjøstheim, Granger (2010)에서도 같은 종류의 조언이 제시되어 있습니다.

실제적인 관점에서보다 복잡한 비선형 모델의 추정을 시도하기 전에 선형성을 테스트하는 것이 유용합니다. 대부분의 경우 통계적 관점에서 테스트가 필요합니다. 많은 인기있는 비선형 모델은 선형성으로 식별되지 않습니다. 데이터를 생성 한 실제 모델이 선형이고 비선형 모델이이 선형 모델을 중첩하는 데 관심이있는 경우 비선형 모델의 매개 변수를 일관되게 추정 할 수 없습니다. 따라서 선형성 테스트는 비선형 모델링 및 추정보다 우선해야합니다.

예를 들어 보겠습니다.

비즈니스주기 모델링의 맥락에서, 비선형 모델의 구축을 정당화하기 위해 통계적 근거를 사용하는 실제 예는 다음과 같습니다. 선형 일 변량 또는 벡터 자기 회귀 모델은 비대칭 주기적 시계열을 생성 할 수 없기 때문에 데이터의 비대칭을 처리 할 수있는 비선형 모델링 접근법이 고려할 가치가 있습니다. 데이터 가역성 에 대한이 예제의 확장 된 버전은 Tong (1993) 에서 찾을 수 있습니다 .

시계열 모델에 너무 집중했다면 사과드립니다. 그러나 일부 아이디어는 다른 설정에도 적용 할 수 있습니다.


2
Graeme, 귀하의 답변은 우수하고 다른 답변도 우수하지만 귀하의 답변은 내가 찾고있는 것 (가장 가까운 경우 미니 버전)에 가장 가깝습니다. +1하고 수락했습니다. 답변을 준비하는 데 많은 노력을 기울였습니다. 참고 문헌뿐만 아니라 두 번 이상 검토 할 것이라고 확신합니다. Harrell 박사의 회귀 전략에 대한 책에는 내가 이상적으로 가질 수있는 프레임 워크의 일부가 포함되어 있다고 생각합니다. 그건 그렇고, 주제 통계 프레임 워크에 대한 나의 생각은 Lisa Harlow의 훌륭한 저서 "다변량 사고의 본질"에서 영감을 얻었습니다.
Aleksandr Blekh

12

중요한 문제는 선형성이 어떤 유형의 문제를 예상 할 것인지 결정하는 것입니다. 그렇지 않으면 표본 크기가 허용하는대로 관계가 비선형이되도록합니다. 생물학, 사회 과학 및 기타 분야의 대부분의 프로세스는 비선형입니다. 선형 관계를 기대하는 유일한 상황은 다음과 같습니다.

  1. 뉴턴 역학
  2. 예측와이와이

와이

큰 데이터 세트에서 선형적인 관계는 거의 없습니다.

회귀 모형에 비선형 성을 포함시키는 결정은 전 세계 통계 원칙이 아니라 세계가 작동하는 방식에서 비롯됩니다. 차선의 통계 프레임 워크를 선택하고 프레임 워크를 잘못 선택하기 위해 비선형 성 또는 상호 작용 항을 도입해야하는 경우는 예외입니다. 언더 모델링 (예 : 선형성을 가정하여) 주요 효과를 상쇄하기 위해 상호 작용 항이 필요할 수 있습니다. 다른 주 효과의 모델링 부족으로 인한 정보 손실을 상쇄하기 위해 더 많은 주 효과가 필요할 수 있습니다.

연구자들은 때때로 다른 변수들이 선형 적으로 작용하도록 강요함으로써 다른 변수들에 적합하지 않은 상태에서 특정 변수를 포함시킬 것인지 고민합니다. 내 경험상 선형성 가정은 가장 중요한 모든 가정 중 가장 위반되는 것 중 하나입니다.


2
+1 Harrell 박사, 소중한 답변 감사합니다. 당신의 요점을 이해합니다. 그러나 연구원이나 데이터 과학자가 통계 이론 이나 다양한 문제 (통계, 데이터, 방법론 등) 로 인해 추가 비선형 구성 요소 를 도입 해야하는 상황에 대해 궁금합니다 (실제로 내 질문의 본질이었습니다). .), 주제 도메인 이론이 아닙니다. 이것에 대한 당신의 통찰에 감사드립니다.
Aleksandr Blekh

5
선형성은 프로세스보다 데이터에 많이 의존합니다. 대부분의 분야에서 대부분의 프로세스는 충분히 좁은 범위에서 검사 할 때 선형 적이며 (즉, 미적분이 매우 광범위하게 사용되는 이유) 넓은 범위에서 비선형 적입니다 (기계적 프로세스 포함). 충분히 큰 표본 크기를 사용할 수있을 때 거의 모든 것이 비선형으로 나타날 수 있다고 제안하는 것이 맞지만, 문제를 구성하는보다 실용적인 방법 은 선형 모델을 채택하는 것이 유용한 시기를 결정하는 방법에 관한 것일 수 있습니다 .
whuber

2
@ whuber : 귀하의 의견에 감사드립니다. 매우 유용한. 지금은 더 나은이 개의 (비) 선형에 대한 이해 의 관점 : 이론 (대상 도메인)데이터 중심 . 통계적 가정 , 문제 (EDA 이후) 또는 유사한 측면 으로 인해 추가적인 비선형 성을 도입 하는 통계적 및 / 또는 방법 론적 관점에 대해 여전히 궁금 합니다. 따라서 제안 된 문제의 프레이밍 외에도 비선형 모델 을 채택하는 것이 유용한 경우 의사 결정 프레임 워크 에 관심이 있습니다.
Aleksandr Blekh

1
"대부분의 분야에서 대부분의 프로세스는 충분히 좁은 범위에서 조사 될 때 선형 적이며 (즉, 미적분학이 매우 유용한 이유입니다.) 미적분학을 수강 한 사람이라면 누구에게나 명백한 반면, 이것은 나를위한 시선 통찰력. @whuber +1 감사합니다.
mugen

3
@Aleksandr Blekh 당신은 비선형 모델을 사용하여 정당화하기 위해 통계적 이유 (기본 이론의 이유와 반대되는)를 제공하는 통계 테스트 또는 잔차 그림을 찾고 있습니까?
mugen

4

와이나는=α+β엑스나는+ε나는
와이나는=α+β엑스나는+γ엑스나는2+ε나는
γ중요하면 비선형 모델의 경우 일 수 있습니다. 직관은 물론 Taylor 확장입니다. 선형 함수가있는 경우 첫 번째 도함수 만 0이 아니어야합니다. 비선형 함수의 경우 고차 미분은 0이 아닙니다.

와이나는=α+β최대(0,엑스나는)+γ(0,엑스나는)+ε나는
γβ

엑스=(엑스,)
엑스+=최대(엑스,)
엑스엑스=. 다른 지역에서 동일한 변수에 대해 여러 개의 경사를 가질 수 있습니다. 내 선형 스플라인이 중요한 경우 매듭 점을 사용하여 사용하거나 비선형 모델을 생각합니다.

이것은 체계적인 접근 방식이 아니지만 내가 항상하는 일 중 하나 일뿐입니다.


1
흥미로운 통찰력 +1 공유해 주셔서 감사합니다-알아두면 좋습니다. 내가 원하거나 준비하고 싶은 것은 기본적인 기본 추론과 비슷한 (대형 및 소형) 접근 방식의 일관된 프레임 워크 / 워크 플로우입니다. 그러한 프레임 워크를 만드는 것이 1) 실현 가능하고 2) 다른 사람들에게 가치가 있다고 생각하십니까?
Aleksandr Blekh

1
@ AleksandrBlekh, 나는 보편적 인 프레임 워크를 만들 수 있다고 생각하지 않습니다. 시계열에서 가장 일반적인 것은 Box-Jenkins입니다.
Aksakal

4
모델 선택에 대한 통계 테스트는 추정치, 특히 표준 오차를 왜곡합니다.
Frank Harrell

1
와이나는=β2엑스나는2+ε나는

2
@ssdecontrol : Taylor 시리즈 휴리스틱에 대한 자세한 내용은 Venables (1998), "선형 모델에 대한 연구", Washington DC의 S-Plus 사용자 컨퍼런스 를 참조하십시오.
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.