능선 회귀의 AIC : 자유도 대 매개 변수 수

능선 회귀 모델의 AICc를 계산하고 싶습니다. 문제는 매개 변수의 수입니다. 선형 회귀 분석의 경우 대부분의 사람들은 모수의 개수가 추정 계수의 수에 시그마 (오류의 분산)를 더한 값과 같다고 제안합니다.

능선 회귀에 관해서는 모자 행렬의 흔적-자유도 (df)가 단순히 AIC 수식의 매개 변수 수 (예 : here 또는 here ) 로 사용된다는 것을 읽었습니다 .

이 올바른지? df를 사용하여 AICc를 계산할 수도 있습니까? 오차 분산을 설명하기 위해 단순히 df에 +1을 추가 할 수 있습니까?

— 줄리안
소스

AICc에 대한 일반적인 입력은 RSS, k 및 n이기 때문에이 질문이 마음에 들지만 동일한 수의 매개 변수에 대해 최소 오류 모델보다 강력한 모델을 선택하지 않는 경향이 있습니다. 후보 모형에 대해 동일한 적합 접근법을 사용하고 동일한 데이터에 적합하면 모형 선택이 모형 선택입니다. 나는 같은 모델과 데이터로 정보 이론적 최적 성을 측정하지만 최소 제곱 오차 및 Huber 손실과 같은 다른 유형을 사용하는 방법에 대한 질문을 좋아합니다.

— EngrStudent

@EngrStudent, 작은 메모 : RSS는 정상적인 가능성의 특별한 경우입니다. 다른 (비정규) 분포를 가정하면 AIC는 RSS를 포함하지 않고 모형의 로그 우도를 포함합니다. 또한 적합 유형 : 모형을 평가하는 데 사용되는 손실 함수 또는 모형 피팅에 사용되는 손실 함수 또는 다른 것을 의미합니까?

— Richard Hardy

참조 : web.mit.edu/lrosasco/www/publications/model_focm.pdf

— kjetil b halvorsen

@RichardHardy-당신은 정상적인 가능성에 대해 옳습니다! 실제로 중심 한계 정리는 과도하게 사용됩니다. 이 경우 "fit function"이라고 말하고 "loss function"이라고 말했을 때도 마찬가지입니다. 나는 의사 역수의 관점에서 최소 제곱을 생각하고 오류 메트릭을 두 번째로 생각합니다. 그것은 나의 사고와 의사 소통 과정에서 "학습의 순서"인공물입니다.

— EngrStudent

@ EngrStudent 감사합니다. 또한 손실 함수에는 피팅 (추정자가 파생 된 경험적 목적 함수)과 평가 (최적화하려는 이론적 목적 함수)라는 두 가지 용도를 제공했습니다.

— Richard Hardy

특정 가정이 이루어지면 AIC와 능선 회귀를 호환 할 수 있습니다. 그러나 능선 회귀에 대한 수축을 선택하는 단일 방법은 없으므로 AIC를 적용하는 일반적인 방법은 없습니다. 릿지 회귀는 Tikhonov 정규화의 하위 집합입니다 . 티호 노프의 정규화, 예를 들면위한 스무딩 요소를 선택 적용 할 수있는 많은 기준이있다, 볼 이 . 이러한 맥락에서 AIC를 사용하기 위해, 정규화를 수행하는 방법에 대해 다소 구체적인 가정을하는 논문이 있습니다 . 특히, 이것은 가정

"통계 프레임 워크에서 ... 정규화 매개 변수 α 의 값을 선택하고 MPL (Maximal Penalized Likelihood) 방법을 사용하여 .... 우리가 분산 와 상관없는 가우시안 잡음을 고려 하고 페널티 사용하는 경우 복잡한 규범, 위 링크 참조 MPL 솔루션은 Tikhonov (1963) 정규 솔루션과 동일합니다. " $\sigma ^2$ $p(x) =$

그러면 그러한 가정이 이루어져야합니까? 필요한 자유도 문제는 AIC와 능선 회귀가 일관된 컨텍스트에서 사용되는지의 여부에 대한 문제에 부차적입니다. 자세한 내용은 링크를 읽는 것이 좋습니다. 나는 그 질문을 피하지 않고 단지 릿지 대상으로 많은 것을 사용할 수 있다는 것입니다. 예를 들어 AIC 자체를 최적화하는 평활화 요소를 사용할 수 있습니다 . 그래서 좋은 질문 하나가 "왜 능선 상황에서 AIC를 귀찮게 하는가?" 능선 회귀 상황에서 AIC가 어떻게 관련 될 수 있는지 알기가 어렵습니다. 예를 들면, 릿지 회귀 상대 최소화하기 위해 적용된 에러 전파 의 , 분이며, $b$ $\left [ \dfrac{\text{SD}(b)}{b}\right ]$ 감마 분포 (GD)

GD (t; a, b) = \frac{1}{t} \frac{e^{- b t} (b t)^{a}}{Γ (a)}; t \geq 0,

$\text{GD}(t; a,b) = \,\dfrac{1}{t}\;\dfrac{e^{-b \, t}(b \, t)^{\,a} }{\Gamma (a)} \;\; \;;\hspace{2em}t\geq 0 \;\; \;\;,\\ %\tabularnewline$

이 논문에 따라 . 특히, 이러한 어려움은 종이, 그것이 사실상 때문에 발생하는 상기 REA U 파인더 시간 C를 최적화 urve (AUC) 및하지의 선량의 최대 우도 (ML) 측정 된 시간 샘플 사이에 적합 합니다. 명확하게 말하면, AUC는 잘못 배치 된 적분이고, 예를 들어 ML을 사용하는 경우 감마 분포 적합은 견고성이 부족하기 때문에 수행됩니다. 따라서 해당 특정 응용 프로그램의 경우 최대 가능성, 따라서 AIC는 실제로 관련이 없습니다. AIC는 예측에 적합하고 BIC는 적합도에 사용되는 것으로 알려져 있지만 예측 및 적합도는 AUC의 강력한 측정과 간접적으로 만 관련되어 있습니다. $[0,\infty)$ $[t_1,t_n]$

에 대한 답으로서 질문 은 질문 텍스트의 첫 번째 기준은 말한다 요점은 유의한다 "는 의 감소 함수이다 [ SiC를 가진 상기 평활화 계수] [ SiC를 상기 유효 숫자 파라미터의 이하에 모자 행렬의 자취를 볼 및 에서 . " 이는 가 모수의 수에서 추정 된 수량의 수를 뺀 것과 같으며, 또한 회귀가 일반 최소 제곱과 같고 $df$ $\lambda$ $df = p$ $\lambda = 0$ $df = 0$ $\lambda=\infty$ $df$ $df$ 에 평활화 계수가 증가함에 따라 . 무한 스무딩의 경우 피팅은 어떤 밀도 함수가 맞는지에 관계없이 평평한 선입니다. 마지막으로 정확한 는 함수입니다. $\infty$ $df$

" ), 여기서 { }는 의 고유 값입니다 ." 를 모자 행렬의 추적으로 정의합니다 ( def 참조) . $df_{ridge}= \sum(\lambda_i / (\lambda_i + \lambda$ $\lambda_i$ $X^{\text{T}} X$ $df$

— 칼
소스