GAM vs GLM을 사용하는 경우


15

나는 이것이 잠재적으로 광범위한 질문 일 수 있음을 알고 있지만 GLM (Generalized linear model)보다 GAM (Generalized Additive Model)의 사용을 나타내는 일반화 가능한 가정이 있는지 궁금합니다.

누군가 최근에 GAM은 데이터 구조가 "가산 적"이라고 가정 할 때만 사용해야한다고했습니다. 즉, x를 더하면 y를 예측할 수 있습니다. 다른 사람은 GAM이 GLM과 다른 유형의 회귀 분석을 수행하며 선형성이 가정 될 때 GLM이 선호된다고 지적했습니다.

과거에는 생태 데이터에 GAM을 사용했습니다. 예 :

  • 연속 시계열
  • 데이터가 선형 모양이 아닌 경우
  • 통계 테스트와 함께 "표면 플롯"을 사용하여 시각화 할 수있는 비선형 상호 작용이 있다고 생각한 y를 예측하기 위해 여러 x가있었습니다.

분명히 GAM이 GLM과 다른 점을 잘 이해하지 못합니다. 나는 그것이 유효한 통계 테스트라고 믿습니다 (그리고 적어도 생태 저널에서 GAM 사용이 증가하는 것을 보았습니다).하지만 다른 회귀 분석보다 사용이 표시되면 더 잘 알아야합니다.


GAM은 선형 예측 변수가 일부 예측 변수의 알 수없는 스무스 함수에 선형으로 의존 할 때 사용됩니다.
user2974951

1
예를 들어 GLM에서 스플라인으로 수치 공변량을 나타낼 수 있기 때문에 구별이 모호합니다.
Michael M

3
구별이 모호한 반면, 감 (gam 's)은 ​​glm의 엄격한 가산 성이 필요하지 않기 때문에 상호 작용을 표현할 수 있습니다. 큰 차이는 추론입니다. 감자는 특별한 방법이 필요합니다. 추측은 투영이 아니라 평활화를 통해 이루어집니다. 그것이 실제로 의미하는 바, 나는 이해하지 못한다.
kjetil b halvorsen

GLM GAM.
usεr11852

답변:


14

가장 중요한 차이점은 선형 또는 일반화 된 선형의 "고전적인"형태는 종속 변수와 공변량 사이의 관계에 대한 고정 된 선형 또는 일부 다른 파라 메트릭 형태를 가정하지만 GAM은이 형태의 특정 형태를 우선적으로 가정하지 않는다는 것입니다 관계, 그리고 종속 변수에 대한 공변량의 비선형 효과를 공개하고 추정하는 데 사용할 수 있습니다. 더 자세하게, (일반화 된) 선형 모형에서 선형 예측 변수는 n 공변량 의 가중 합이며 , i=1nβixi 이며, GAM에서이 항은 부드러운 함수의 합으로 대체됩니다 (예 : i=1nj=1qβisj(xi) , 여기서s1(),,sq() 는 부드러운 기본 함수 (예 : 입방 스플라인) 및q기본 차원입니다. 기본 기능을 결합함으로써 GAM은 많은 기능적 관계를 나타낼 수 있습니다 (그러므로 실제 관계가 흔들기보다는 매끄럽게 될 것이라는 가정에 의존합니다). 그것들은 본질적으로 GLM의 확장이지만 수치 공변량의 비선형 효과를 발견하고 "자동"방식으로 수행하는 데 특히 유용한 방식으로 설계되었습니다 (Hastie와 Tibshirani의 원래 기사 에서 완전히 자동적이라는 장점, 즉 통계 측에서는 "탐지"작업이 필요하지 않다 ' ).


2
글쎄, 그러나 의견에서 말했듯이, 그 모든 것은 glm으로도 가능합니다 ... 주된 차이점은 실용적이라고 생각합니다. R 구현은 mgcv당신이 할 수없는 많은 일을 glm하지만, 그 프레임 워크에서도 가능했을 것입니다.
kjetil b halvorsen

예, GAM은 GLM의 확장입니다. 그러나 문제는 GAM 사용시기와 GLM 사용시기에 관한 것이 었으며, op는 일반적으로 예측 기능으로 기본 함수 집합을 포함하지 않으며 공개 / 사용하지 않는 "고전적인"GLM 형식을 의미하는 것으로 보입니다. 알 수없는 비선형 관계에 가깝습니다.
matteo

감사합니다-도움이됩니다. 그리고 네, 고전적인 GLM에 대해 이야기하고있었습니다
mluerig

@ matteo 단지 두 가지 더 : i) "진정한 관계가 흔들기보다는 매끄럽게 될 것"이라는 것이 정확히 무엇을 의미합니까? 그리고 ii) "숫자 공변량의 비선형 효과를 발견하는데 특히 유용하다"-어떻게 비선형 성을 기술 / 양식화 할 mgcv것인가?
mluerig

실제 관계는 실제로 부드럽 지 않을 수도 있지만, GAM은 일반적으로 가능성 최대화 프로세스 (일반적으로 추정 함수의 2 차 도함수의 통합 제곱의 비율로 구현 됨) 동안 "가발 성"페널티를 추가하여 모델 복잡성을 제어합니다. 수치 공변량의 비선형 효과는 종속 변수에 대한 특정 수치 변수의 영향이 예를 들어 변수 값으로 단조롭게 증가 / 감소하지는 않지만, 예를 들어 국소 최대 점, 최소 점, 변곡점과 같은 알 수없는 형태를 가질 수 있음을 의미합니다. ..
matteo

14

GAM은 GLM보다 훨씬 유연하므로 사용에 더 많은주의가 필요합니다. 더 큰 힘으로 더 큰 책임이 따른다.

당신은 생태학에서의 사용에 대해서도 언급했습니다. 나는 코스타리카에 있었고 일부 대학원생들이 GAM에 데이터를 던지고 소프트웨어가 그렇게 말했기 때문에 미친 복잡한 스무더를 받아 들인 열대 우림에서 일종의 연구를 보았습니다. 그들이 GAM을 사용했다는 사실과 그로 인한 고차 스무더를 기록한 각주를 엄격하게 포함한다는 유머러스하고 훌륭한 사실을 제외하고는 상당히 우울했습니다.

GAM이 GAM을 사용하는 방식을 정확히 이해할 필요는 없지만 데이터, 당면한 문제, 순조로운 주문과 같은 소프트웨어의 자동 매개 변수 선택, 선택 (매끄러운 지정, 상호 작용, 매끄럽게 정당화되는 경우 등) 및 결과의 타당성.

많은 플롯을 수행하고 평활화 곡선을보십시오. 데이터가 거의없는 영역에서 열광합니까? 낮은 차수를 더 부드럽게 지정하거나 스무딩을 완전히 제거하면 어떻게됩니까? 해당 변수에 대해 7 도가 매끄럽게 현실감이 있습니까? 선택이 교차 검증되었다는 보장에도 불구하고 과적 합입니까? 충분한 데이터가 있습니까? 고품질입니까, 시끄 럽습니까?

GAMS를 좋아하고 데이터 탐색에 대한 평가가 부족하다고 생각합니다. 유연성이 뛰어나고 엄격하게 과학에 참여할 수 있다면 GLM과 같은 간단한 모델보다 통계 학적 영역에 더 많이 도달 할 수 있습니다.


1
나는 그 대학원생들이 한 일을 가장 자주 수행한다고 상상한다. 내 데이터를 게임에 던지고 내 데이터를 얼마나 잘 mgcv처리 하는지에 현혹된다 . 매개 변수와 조화를 이루고 예측 값이 데이터와 얼마나 일치하는지 확인합니다. 귀하의 의견은 좀 더 엄격하다는 것을 상기시켜주는 좋은 알림입니다. 그리고 아마도 마지막으로 사이먼 우즈 책을 받으십시오!
mluerig

나는 평활을 사용하여 변수를 탐색 한 다음 자유도를 낮은 값으로 고정하거나 평활도가 기본적으로 2 차인 경우 제곱 항을 부드럽게 사용합니다. 예를 들어 2 차는 나이 효과에 적합합니다.
Wayne

@Wayne, 저는 GAM과 관련된 데이터 탐색에 대한 답을 찾기 위해 여기에 왔으며 당신이 지적한 것을 보았습니다. 데이터 탐색에 GAM을 어떻게 사용합니까? 그리고 GAM이 필요한지 아니면 GLM이 충분한 지 어떻게 결정할 것입니까? 간단한 GAM을 실행하여 반응과 각 잠재적 예측 변수를 차례로 실행 한 다음이를 플롯하고 관계가 GAM을 보장하는지 (즉, 비선형 및 비단 조 관계) 확인하는 것이 합리적입니까?
Tilen

6

나는 단순히 의견을 추가하는 것으로 명성이 없습니다. 난 완전히 웨인의 의견에 동의합니까 : 큰 힘이 더 큰 책임이 온다 . GAM은 매우 유연 할 수 있으며 종종 복잡한 복잡한 스무더를 얻거나 볼 수 있습니다 . 그런 다음 연구자들은 부드러운 함수의 자유도 (노트 수)를 제한하고 다른 모델 구조 (상호 작용 / 상호 작용 없음 등)를 테스트 할 것을 강력히 권장합니다.

GAM은 모델 중심의 접근 방식 (국경이 모호하지만 그룹에 GLM을 포함 할 것임)과 데이터 중심의 접근 방식 (예 : 인공 신경망 또는 임의의 비선형 변수 효과를 상호 작용하는 임의의 숲) 사이에서 고려할 수 있습니다. 따라서 GAM은 여전히 ​​탐정 작업이 필요하기 때문에 Hastie와 Tibshirani에 전적으로 동의하지 않습니다.

생태 학적 관점에서 볼 때 R 패키지 사기 를 사용하여 신뢰할 수없는 변수 미친 복잡한 스무더 를 피하는 것이 좋습니다 . Natalya Pya와 Simon Wood에 의해 개발되었으며 양방향 상호 작용에도 부드러운 곡선을 원하는 모양 (예 : 단조 또는 단조)으로 제한 할 수 있습니다. 나는 부드러운 기능의 모양을 제한 한 후에 GLM이 작은 대안이된다고 생각하지만 이것은 내 개인적인 의견 일뿐입니다.

Pya, N., Wood, SN, 2015. 형상 구속 첨가제 모델. 통계 계산. 25 (3), 543-559. 10.1007 / s11222-013-9448-7

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.