일반적인 가산 적 포아송 모델 문제에서 스플라인 df 선택


9

SAS를 사용하여 Poisson 일반 첨가제 모델을 사용하여 일부 시계열 데이터를 피팅했습니다 PROC GAM. 일반적으로 말해서, 내장 된 일반 교차 유효성 검사 절차를 통해 단일 스플라인에 대해 적어도 "시작점"을 생성했습니다. 이는 단일 파라 메트릭 용어와 함께 비선형 시간 함수입니다. 실제로 관심이 있습니다).

지금까지 내 데이터 세트 중 하나를 제외하고는 다소 수영을했습니다. 이 데이터 세트에는 132 개의 관측치가 있으며 GCV는 128 자유도의 스플라인을 제안합니다. 저것은 ... 잘못입니다. 매우 잘못되었습니다. 더 중요한 것은 또한 전혀 안정적이지 않다는 것입니다. 매개 변수 항의 추정값이 변경을 멈출 때 자유도 추가를 중지하기 위해 "추정 변경"기준과 같은 방법을 사용하여 두 번째 접근법을 시도했는데, 왜 다른 것이 없다면 제어를 계속 추가합니까?

문제는 추정치가 전혀 안정적이지 않다는 것입니다. 나는 다음과 같은 자유도를 시도했으며, 보시다시피, 파라 메트릭 용어는 격렬하게 튀어 오릅니다.

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

나는이 특정 비트의 데이터에 대해 df 측면에서 사용해야하는 것에 대해 전혀 직관이 없습니다. df를 선택하는 방법에 대한 다른 아이디어가 있습니까? 스플라인의 중요성을 살펴 봐야합니까?

df = 10과 df = 15 사이에서 좀 더 살펴보면 df = 12가 128에 의해 생성 된 추정치에 가장 가깝고 "합리적인 자유도"범위에있는 것처럼 보입니다. 선형 항, 절편 및 단일 모수 항과 함께 상당히 포화 된 모형처럼 느껴집니다. 12와 함께가는 것이 타당합니까?

두 번째 업데이트로 스무딩을에서 spline(t)로 변경하면 loess(t)훨씬 더 잘 작동하는 df 추정치가 발생합니다.


132 개의 관측치가있는 데이터 세트에 실제로 개수와 132 개의 관측치가있는 가중 데이터 세트임을 암시하는 관련 계수 및 오프셋 항이 있습니까? Poisson RV의 평균 분산 관계로 인해 많은 수의 "모델 선택"특성으로 이어질 수 있으며 "큰 샘플 크기"로 인해 바람직하지 않습니다.
AdamO

데이터 세트는 132 주 동안의 데이터로, 카운트 = 모델 항 + 로그 (사람-시간)로 오프셋으로 모델링됩니다. 카운트는 특히 높지 않습니다. 그러나 상당한 수의 0이 있습니다.
Fomite

답변:


5

M.Berk @ 언급 된 바와 같이,이 GCV 기준 약하게의 함수로서 GCV 기준에 매우 얕은 최소 초래하는 경향이있는, 주로 overfitting 불리하므로 undersmooth에게 공지 , 평활성 파라미터. 최소값이 매우 얕기 때문에 최적의 GCV는 광범위한 추정치에서 발생할 수 있습니다 . 또한, 의 함수 인 GCV 기준 은 다중 최소값을 갖는 경향이 있으며, 이는 설명하는 불안정성을 초래할 수 있습니다. Simon Wood (2011)는 그의 그림 1에서 이것을 잘 보여줍니다.λλλ

Wood (2011)는 또한 AICc가 원활한 기능에 사용되는 저급에서 중급의베이스에 대해 GCV에 비해 많은 추가 이점을 제공하지 않음을 보여줍니다 .

대조적으로, REML (및 ML) 평활도 선택은 GCV보다 오버 피트를 더 강력하게 처벌하고, 결과적으로 훨씬 더 명확하게 정의 된 최적을 갖는다. 이로 인해 의보다 안정적인 추정치 와 언더 스무딩 위험이 크게 줄어 듭니다.λ

Wood (2011)는 빠르고 안정적인 REML 및 ML 추정 절차를 설명하며, 이는 수렴 측면에서 기존 REML (ML) 방식보다 개선 된 것으로 나타났습니다. 이러한 아이디어는 Simon의 mgcv 패키지 ( R) 에서 사용할 수 있습니다 .

Wood (2011)가 페이 월 뒤에 있기 때문에 웹 사이트 에서 사용할 수있는 Simon의 슬라이드 세트에서 가져온 비슷한 이미지 (AICc 결과는 여기에 표시되지 않음) 를 매끄럽게 선택하는 방법 {PDF}에 포함시킵니다. 슬라이드 10의 그림은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

두 개의 행은 각각 강한 (상단) 또는없는 (낮은) 신호가있는 시뮬레이션 된 데이터를 반영합니다. 가장 왼쪽 패널은 각 모델의 실현을 보여줍니다. 나머지 패널은 GCV (중간 열) 및 REML 기준 이 실제 모델에서 각각 시뮬레이트 된 10 개의 데이터 세트에 대해 의 함수로 어떻게 다른지 보여줍니다 . 상단 열의 경우 GCV가 최적의 왼쪽에 얼마나 평평한 지 확인하십시오. 이 패널의 깔개 그림 은 10 개의 각 실현에 대한 최적의 를 보여줍니다 . REML 기준은 선택된 값에서 훨씬 더 뚜렷하고 최적의 편차를 갖습니다 .λλλ

따라서 나는 mgcv 패키지에 대해 Simon Wood가 주장한 접근법 , 즉 사이의 관계에서 예상되는 유연성을 포함하기에 충분히 큰 기본 차원으로 선택 하는 방법을 제안 하지만 그렇게하지는 않습니다. 큰. 그런 다음 REML 부드러움 선택을 사용하여 모델을 맞 춥니 다. 선택한 모형 자유도가 초기에 지정된 치수에 가까운 경우 기본 치수를 늘리고 다시 맞 춥니 다.y=f(x)+ε

@ M.Berk와 @BrendenDufault가 언급했듯이 스플라인 기준을 설정할 때 GAM에 맞는 적절한 기준 차원을 선택하는 데있어 어느 정도의 주관성이 필요할 수 있습니다. 그러나 REML 부드러움 선택은 Wood의 방법을 사용하는 다양한 GAM 응용 분야에서 필자의 경험에서 상당히 견실 한 것으로 입증되었습니다.

Wood, SN (2011) 준모 수 일반화 선형 모형의 빠르고 안정적인 제한된 최대 우도 및 한계 우도 추정 . J. 왕 통계 협회 B 73 (1 부), 3--6.


@EpiGrad 환영합니다. 당시 질문을 놓친 것에 대해 죄송합니다. 지난 1 ~ 2 년 동안 나는 당신과 비슷한 상황으로 어려움을 겪어 왔으며 이에 관한 Simon Wood의 논문을 읽고 여러 차례 선택을 제공합니다. 기꺼이 도움을 줄 세부 사항을 기억할 수있었습니다.
개빈 심슨

3

가장 좋은 방법은 스무딩 알고리즘 외부에 있다고 생각합니다. 모델 parsimony를 고려하십시오.

당신은 이것을 암시하지만, 그것이 당신의 최고 선택 기준이되어야한다고 믿습니다. 모델링되는 프로세스의 원인 / 인과성에 따라 얼마나 많은 "벤드"가 합리적으로 보이는지 자문 해보십시오. plots=components(clm)명령문으로 피팅 된 스플라인을 그래프로 표시하고 피팅을 시각적으로 평가합니다. 아마도 높은 DF 스플라인은 더 낮은 소음을 제외하고는 낮은 DF 스플라인과 비슷한 이야기를하고있을 것입니다. 이 경우 낮은 DF 맞춤을 선택하십시오.

결국 GAM 모델은 탐색 적입니다.

gcv 옵션을 직접 사용하면 Poisson 조건, 희소 데이터 등의 성능에 대해 궁금합니다. 시뮬레이션 연구가 여기에있을 것입니다.


2

나는 다음 대답을 입력 한 다음 경험이없는 포아송 회귀에 적용 가능한지 전혀 모른다는 것을 깨달았습니다. 아마도 사람들은 몇 가지 의견으로 대답 할 수 있습니다.


개인적으로 저는 BW Silverman (1985)의 조언을 좋아합니다. "비모수 적 회귀 곡선 피팅에 대한 스플라인 스무딩 접근법의 일부 측면 (토론 포함)." ( 여기서 구독하지 않아도 가능 ) : 다양한 스무딩 매개 변수를 시도하고 가장 시각적으로 가장 매력적인 매개 변수를 선택하십시오.

그가 같은 논문에서 올바르게 지적했듯이, 주관적인 접근 방식이 선호 될 수 있지만 여전히 자동 방법이 필요합니다. 그러나 GCV는 부드러워지는 경향이 있기 때문에 일반적으로 좋지 않은 선택입니다. 예를 들어 Hurvich et al (1998) "개선 된 Akaike 정보 기준을 사용하여 비모수 적 회귀에서 스무딩 매개 변수 선택"( 여기서 구독하지 않고 사용 가능)을 참조하십시오 . 같은 논문에서 그들은 당신의 문제를 완화시킬 수있는 새로운 기준, 작은 표본 크기 보정을 포함하는 수정 된 AIC를 제안합니다. AICc에 대한 Wikipedia의 설명은 종이보다 쉽게 찾을 수 있습니다 . Wikipedia 기사에는 Burnham & Anderson의 유용한 조언도 포함되어 있습니다 (예 : 샘플 크기에 관계없이 AIC 대신 AICc 사용).

요약하면, 내 제안은 선호도 순서대로 될 것입니다.

  1. 육안 평가를 통해 수동으로 스무딩 매개 변수 선택
  2. GCV 대신 올바른 AIC (AICc)를 사용하십시오.
  3. 표준 AIC 사용
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.