고급 회귀 모델링 예제


22

GLM 또는 OLS를 사용하여 복잡한 다중 비선형 관계를 모델링하는 데 필요한 단계를 보여주는 고급 선형 회귀 사례 연구를 찾고 있습니다. 기본 학교의 예를 넘어서는 자료를 찾는 것은 놀랍게도 어려운 일입니다. 제가 읽은 대부분의 책은 하나의 예측 변수의 BoxCox 또는 최상의 경우 자연스러운 스플라인과 결합 된 응답의 로그 변환 이상으로 진행되지 않습니다. 또한 지금까지 본 모든 예제는 개별 모델, 종종 단일 예측 변수 모델에서 각 데이터 변환 문제에 접근합니다.

BoxCox 또는 YeoJohnson 변환이 무엇인지 알고 있습니다. 내가 찾고있는 것은 반응 / 관계가 명확하지 않은 상세한 실제 사례 연구입니다. 예를 들어 반응이 엄격하게 긍정적이지 않으므로 (로그 또는 BoxCox를 사용할 수 없음) 예측 변수와 반응간에 비선형 관계가 있으며 최대 가능성 데이터 변환이 표준 0.33을 암시하지 않는 것 같습니다. 또는 0.5 지수 또한 잔차 분산이 일정하지 않은 것으로 밝혀 졌으므로 (그렇지 않음) 응답도 변환되어야하고 비표준 GLM 패밀리 회귀 또는 응답 변환 중에서 선택해야합니다. 연구원은 데이터의 과적 합을 피하기 위해 선택을 할 것입니다.

편집하다

지금까지 나는 다음과 같은 자료를 수집했다.

  • 회귀 모델링 전략, F. Harrell
  • 응용 계량 경제 시계열, W. 엔더
  • R, G. Petris를 사용한 동적 선형 모델
  • 응용 회귀 분석, D. 클라인 바움
  • 통계 학습 소개, G. James / D. 위튼

나는 마지막 (ISLR) 만 읽었으며 고급 회귀 모델링보다 ML에 더 적합하지만 매우 좋은 텍스트 (시계에 별 5 개 5 개)입니다.

이력서에 대한 좋은 소식 도 도전적인 회귀 사건을 제시합니다.


8
Frank Harrells의 책 ( amazon.com/… )이 도움이 될 것이라고 생각 합니다.
Adam Robinsson

@AdamRobinsson TOC가 여러 관련 주제 (다변량 모델, 스플라인, 다중 공선 성)에 영향을 미치는 것을 보았지만 실제 예제에서 함께 설명 된 방법론 또는 각 주제가 개별적으로 설명되어 있습니까? 일반적으로 실제 사례에서는 모든 문제가 함께 발생하므로이를 잘 관리하는 방법은 분명하지 않습니다.
Robert Kubrick

1
나는 전체 책을 아직 읽지는 않았지만 처음 150 페이지는 절대적으로 훌륭했습니다 (나는 정적이 아니고 열광적입니다). 예는 광범위하고 정교합니다. 이 책은 R에 대한 RMS (회귀 모델링 전략) 패키지와 함께 제공됩니다. 또한 David Kleinbaums 경쟁 도서 (불행히도 제목을 잊어 버렸습니다)를 보았지만 전략과 예제에 대해서는 훨씬 적었습니다 (두 배나 비쌉니다).
Adam Robinsson

3
@RobertKubrick : "다변량 회귀"는 하나 이상의 응답을 의미합니다 (추가 한 태그에 대한 위키 또는 여기 참조 ). "다중 회귀"는 둘 이상의 예측 변수를 의미합니다.
Scortchi-Monica Monica 복원

3
엔더 별 Applied Econometric 시계열을 확인하십시오. 새 버전은 책 끝 부분의 비선형 모델을 다룹니다. 거의 모든 데이터는 St. Louis Fed 웹 사이트 (R의 quantmod를 통해 액세스 가능)에서 공개적으로 제공되므로 실제 사례를 따라갈 수 있습니다. R이 포함 된 동적 선형 모델에는 실제 데이터가 꽤 괜찮은 몇 가지 예가 있습니다.
Eric Brady

답변:


10

다른 사람들이 이미 언급 한 회귀 모델링 전략 과 ISLR은 두 가지 매우 좋은 제안입니다. 당신이 고려해야 할 다른 몇 가지가 있습니다.

Kuhn과 Johnson의 Applied Predictive Modeling 에는 여러 가지 사례 연구가 포함되어 있으며 실습이 매우 쉽습니다.

일반화 된 가산 모델 : Simon Wood의 R사용한 소개 는 일반화 된 가산 모델을 다루는 방법과 그의 mgcv패키지를 R에 사용하는 방법에 관한 것 입니다. GAM 모델을 사용하는 것은 스플라인 확장 및 처벌 된 최대 가능성 추정을 통해 데이터 적응 방식으로 수행되므로 "올바른"변환을 파악하기위한 대안입니다. 그러나 링크 기능의 선택과 같은 다른 선택이 여전히 필요합니다.

mboost R에 대한 패키지는 GAM 모델에 맞는하지만 강화를 통해 다른 접근 방식을 사용. 패키지에 대한 자습서 (비 네트 중 하나)를 권장합니다.

또한 이 책을 아직 읽지 않았지만 Hendry와 Doornik의 경험적 모델 발견과 이론 평가 에 대해서도 언급 할 것 입니다. 나에게 추천되었다.


적용된 예측 모델링 ... 나는 ISLR을 선호합니다.
Robert Kubrick

5

고급, 다중, 복잡한 (비선형 포함) 회귀에서 찾을 수 있는 최고의 과정 자료 중 하나는 Frank E. Harrell Jr.의 Regression Modeling Strategies 책을 기반으로합니다.

이 책은 주석에서 논의되었지만이 자료는 아닙니다.이 자료 자체는 훌륭한 자료입니다.


2

나는 Joshua D. Angrist와 Jörn-Steffen Pischke 가 쓴 무해한 계량 경제학 책을 추천한다

이것은 세상에서 가장 현실적이고 소금이며, 내가 소유 한 텍스트이며 $ 26.00 정도의 매우 저렴합니다. 이 책은 대학원 통계 학자 / 경제학자를 위해 작성되었으므로 충분히 발전했습니다.

이제이 책은 내 생성, 해석 및 영리한 회귀 설계와 같은 핵심 기본 요소만큼 "복잡하고 다중 비선형 관계"에 초점을 맞추지 않는다는 점에서 정확히 요구하는 것은 아닙니다.

그러나 나는이 책을 제시하여 지적하려고한다. 즉, 실제 회귀 분석 적용과 관련하여 가장 까다로운 문제는 일반적으로 모델이 충분히 복잡하지 않다는 사실과 관련이 없습니다 ... 우리는 매우 복잡하게 드럼 연주를 잘합니다. 모델! 오히려 가장 큰 문제는

  1. 내 생성
  2. 필요한 모든 데이터가없는
  3. 많은 데이터가 필요합니다 ... 그리고 그것은 엉망입니다!
  4. 많은 사람들에게 자신의 모델을 올바르게 해석 할 수 없습니다 ( 모델을 더 복잡하게 만들 수록 더 널리 퍼지는 문제 )

GMM, 비선형 필터 및 비모수 적 회귀에 대한 확실한 이해는 나열된 모든 주제를 다루며 진행하면서 배울 수 있습니다. 그러나 실제 데이터를 사용하면 이러한 프레임 워크는 불필요하게 복잡하고 종종 해로울 수 있습니다.

전체적으로 일반화되고 고도로 정교하지 않고 영리하게 단순하게하는 기능이 실제 분석에 가장 유리한 경우가 많습니다. 이 책은 전자에 도움이 될 것입니다.


1

이 책은 스플라인 및 다항 회귀에 대해 자세히 설명하는 R을 사용한 통계 학습 소개 (ISLR) 소개를 참조 할 수 있습니다.


1

귀하의 질문의 목적이 무엇인지 잘 모르겠습니다. Greene의 계량 분석 텍스트를 추천 할 수 있습니다 . 내부 논문에 대한 수많은 참조가 있습니다. 책의 각 예제는 출판 된 논문을 참조합니다.

풍미를주기 위해, p.195의 예 7.6 "소득에 대한 로그 선형 모델의 상호 작용 효과"를보십시오. 논문 및 데이터 세트 : Regina T. Riphahn, Achim Wambach 및 Andreas Million, " 건강 관리 요구에 대한 인센티브 효과 : 이변 량 패널 수 데이터 추정 ", 응용 경제 경제학 저널, Vol. 18, No. 4, 2003, 387-405 쪽.

예는 로그 선형 모델 사용 및 상호 작용 효과에 관한 것입니다. 전체 논문을 읽거나이 교재에 대한 설명을 읽을 수 있습니다. 이것은 사용 사례가 아닙니다. 실제 출판 된 연구입니다. 이것이 사람들이 실제로 경제학 연구에서 통계적 방법을 사용하는 방법입니다.

내가 쓴 것처럼이 책은 고급 통계적 방법의 사용법에 대해 이와 같은 유스 케이스를 가지고있다.


0

Ruey Tsay (UChicago)가 작성하는 일부 재무 시계열 분석 코스 / 책을 살펴 보셨습니까?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Ruey Tsays 수업과 교과서는 금융 시장에서 사용하기 위해 만들어진 유형의 복잡한 회귀에 대한 재무에서 여러 실제 사례를 제공합니다. 1 장은 다중 요인 회귀 모델로 시작하여 5 장 또는 6 장으로 계절 자동 회귀 시계열 모델로 확장됩니다.


2
네, 전혀 좋아하지 않았습니다. 폭이 넓고 (변동성 모델에서 고주파수, ARIMA에 이르기까지), 각 주제를 가볍게 만지십시오 (어떻게 많은 주제를 다루지 못했는지). R 연구와 과제는 최소화됩니다. 그것은 학술 논문의 개편이며 이미 다른 곳에서 찾을 수있는 이론 / 모델을 언급했습니다. 이것은 실제 고급 문제에서 여러 문제의 복잡성을 다루지 않는 학교 사례에서 의미하는 바입니다.
Robert Kubrick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.