자유도는 정수가 아닌 숫자 일 수 있습니까?


27

GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
일반적으로 df는 부동 소수점 숫자 일 수 있습니다.
David Lane

6
실수 (또는 정수가 아닌 숫자)에 대해 물어 보는 것이 좋습니다. 부동 소수점 숫자는 구현과 관련된 컴퓨터 개념 (실수를 근사화하는 방법)이지만 기본 수학 아이디어에 대해 실제로 묻습니다 (수학적 질문을하는 것이 더 좋습니다). 그럼에도 불구하고 개념 상 정수인 수량이 어떤 이유로 든 (항상 좋은 것은 아니지만) 항상 부동 소수점 숫자로 저장된 상황에 처하게됩니다. "모델이 정수가 아닌 자유도를 가질 수 있습니까?" 제목.
Glen_b-복귀 모니카

답변:


40

자유도는 여러 상황에서 정수가 아닙니다. 실제로 일부 상황에서 특정 모델에 대한 데이터에 대한 자유도가 어느 정도 kk+1 사이 여야한다는 것을 알 수 있습니다 .

우리는 일반적으로 자유도를 자유 매개 변수의 수로 생각하지만, 매개 변수가 완전히 자유롭지 않아 계산하기 어려운 상황이 있습니다. 예를 들어 매끄럽게 / 정규화 할 때 이런 일이 발생할 수 있습니다.

국소 가중 회귀 / 커널 방법 스무딩 스플라인의 경우는 이러한 상황의 예입니다. 총 자유 매개 변수의 수는 예측 변수를 추가하여 쉽게 계산할 수있는 것이 아니므로 자유도에 대한보다 일반적인 아이디어가 필요합니다.

에서 일반화 된 첨가제 모델 있는 gam부분적으로 기반으로 Hastie 및 Tibshirani (1990) [1] (실제로 수많은 다른 참조에) 우리가 쓸 수있는 일부 모델에 대한 y는 = Y를 , 자유도 때때로로 촬영 TR ( A ) (또한 tr ( A A T ) 또는 tr ( 2 A A A T )에 대해서도 논의합니다 ). 첫 번째는 두 가지 작업이 모두 수행되는 일반적인 접근 방식과 일치합니다 (예 : 회귀, 정상적인 상황에서 tr ( Ay^=Aytr(A)tr(AAT)tr(2AAAT)tr(A)X 의 열 차원이되지만A 가 대칭적이고 dem 등원 인 경우 해당 세 수식은 모두 동일합니다.

[자세한 내용을 충분히 확인할 수있는이 참고 자료는 없습니다. 이해하기 쉬운 같은 저자 (Friedman)에 의한 대안 은 통계 학습의 요소이다 [2]; 평활 스플라인의 유효 자유도를 tr(A) 로 정의한 식 5.16 (예 : 표기법)을 참조하십시오.]

보다 일반적으로 여전히 예 (1998)와 같은 자유 [3]에 정의 일반화도 iy^iyitr(A)y^y^iyi

에 의해 장착 된 것과 같은 모델의 gam경우 이러한 다양한 측정 값은 일반적으로 정수가 아닙니다.

(일부 상황에서는 이야기가 다소 복잡해질 수 있지만이 문제에 대한 참고 문헌의 토론을 읽는 것이 좋습니다. 예를 들어 [4] 참조)

[1] Hastie, T. and Tibshirani, R. (1990),
일반화 된 부가 모델
런던 : 채프먼과 홀.

[2] Hastie, T., Tibshirani, R. 및 Friedman, J. (2009),
통계 학습의 요소 : 데이터 마이닝, 추론 및 예측 , 2nd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
"데이터 마이닝 및 모델 선택의 영향 측정 및 수정에 관한
연구 " 미국 통계 협회 , Vol. 93, No. 441, pp 120-131

[4] Janson, L., Fithian, W., Hastie, T. (2013),
"유효한 자유도 : 결함있는 은유"
https://arxiv.org/abs/1312.7851


7
이 경우에는 관련이 없지만 분산이 같지 않은 Welch two sample t 검정은 정수가 아닌 자유도를 가질 수 있습니다.
Michael R. Chernick

5
반복 측정에서 엡실론 보정 된 df는 ANOVA를 측정 할 수 있습니다.
David Lane

2
또 다른 참고 문헌은 statweb.stanford.edu/~tibs/ElemStatLearn/printings/… 섹션 5.4.1 자유도 및 더 부드러운 행렬의 정도
Adrian

1
@Adrian 감사합니다; 나는 그 참조를 추가 할 것인지, 특히 당신이 가리키는 섹션에서 eqn 5.16을 언급 할 것인지를 던졌습니다. 나는 그것을 추가하는 것이 좋은 생각이라고 결론 지었다.
Glen_b-복지국 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.