능선 회귀를 사용할 때 계수 표준 오차를 어떻게 추정 할 수 있습니까?

18

다중 다중 선형 데이터에서 능형 회귀를 사용하고 있습니다. OLS를 사용하면 다중 공선 성으로 인해 계수에서 큰 표준 오류가 발생합니다. 능선 회귀가이 문제를 처리하는 방법이라는 것을 알고 있지만, 내가 본 능선 회귀의 모든 구현에서 계수에 대해 표준 오류가보고되지 않았습니다. 특정 계수의 표준 오차가 얼마나 많이 감소 하는지를보고 능선 회귀가 얼마나 도움이되는지 추정하는 방법을 원합니다. 능선 회귀 분석에서 추정 할 수있는 방법이 있습니까?

standard-error ridge-regression

— 제임스 데이비슨
소스

19

부 스트랩이 강력한 SE를 얻는 가장 좋은 방법이라고 생각합니다. 이는 축소 된 로지스틱 회귀 접근법을 사용하는 북미 류마티스 관절염 컨소시엄 데이터 와 같은 수축 방법을 사용하는 일부 적용 작업에서 수행되었습니다 (BMC Proceedings 2009). Casella의 Penalized Model, Penalized Regression, Standard Errors, Bayesian Lassos (Bayesian Analysis 2010 5 (2))를 사용한 SE 계산에 관한 멋진 논문도 있습니다 . 그러나 그들은 올가미 와 엘라스틱 넷 형벌에 더 관심이 있다.

나는 항상 능선 회귀를 표준 OLS보다 더 나은 예측을 얻는 방법으로 생각했습니다. 여기서 모델은 일반적이지 않습니다. 변수 선택의 경우 올가미 또는 엘라스틱 넷 기준이 더 적합하지만 부트 스트랩 절차를 적용하기가 어렵습니다 (선택한 변수가 한 샘플에서 다른 샘플로 변경되기 때문에 내부 폴드 루프에서 / 매개 변수); 항상 모든 변수를 고려하기 때문에 릿지 회귀의 경우에는 해당되지 않습니다. $k$ $\ell_1$ $\ell_2$

나는이 정보를 줄 R 패키지에 대해 전혀 모른다. glmnet 패키지 에서는 사용할 수없는 것 같습니다 ( JS 의 Friedman 논문, Coordinate Descent를 통한 일반 선형 모델의 정규화 경로 참조 ). 그러나 불이익을받은 패키지를 만든 Jelle Goeman 은이 점에 대해서도 논의합니다. 웹에서 원본 PDF를 찾을 수 없으므로 간단히 그의 단어를 인용하십시오.

회귀 계수 또는 기타 추정 수량의 표준 오차를 요청하는 것은 매우 자연스러운 질문입니다. 원칙적으로 이러한 표준 오차는 예를 들어 부트 스트랩을 사용하여 쉽게 계산할 수 있습니다.

그러나이 패키지는 일부러 제공하지 않습니다. 그 이유는 불이익을받는 추정 방법에서 발생하는 것과 같이 강하게 치우친 추정에는 표준 오차가 그다지 의미가 없기 때문입니다. 불이익 추정은 상당한 편향을 도입하여 추정기의 분산을 줄이는 절차입니다. 따라서 각 추정기의 치우침은 평균 제곱 오차의 주요 구성 요소 인 반면, 분산은 작은 부분에만 영향을 줄 수 있습니다.

불행히도, 대부분의 처벌 회귀 적용에서는 충분히 정확한 바이어스 추정치를 얻는 것이 불가능합니다. 부트 스트랩 기반 계산은 추정값의 분산 만 평가할 수 있습니다. 신뢰할 수있는 편견이없는 추정값을 사용할 수있는 경우에만 바이어스에 대한 신뢰할 수있는 추정값을 사용할 수 있습니다.

따라서 불이익 추정치의 표준 오류를보고하면 스토리의 일부만 알 수 있습니다. 그것은 편견으로 인한 부정확성을 완전히 무시하고 큰 정밀도의 잘못된 인상을 줄 수 있습니다. 부트 스트랩 기반 신뢰 구간과 같이 추정치 분산의 평가만을 기반으로하는 신뢰 진술을하는 것은 확실히 실수입니다.

— chl
소스

2

이 견적을 제공해 주셔서 감사합니다. 원래 따옴표를 찾을 수 있습니다 여기 18 페이지

— 시스코 Arceo에게

8

데이터 생성 프로세스가 OLS의 표준 가정을 따른다고 가정하면, 능선 회귀에 대한 표준 오류는 다음과 같습니다.

$\sigma^2 (A^T A + \Gamma^T \Gamma)^{-1} A^T A (A^T A + \Gamma^T \Gamma)^{-1}$

위의 표기법은 능선 회귀에 대한 위키 표기법을 따릅니다 . 구체적으로 특별히,

$A$

$\sigma^2$

$\Gamma$

1

A^{T} A

$A^T A$

A

$A$

1

$\Gamma ^T\Gamma$ $\text{$\lambda $I}$ $\text{I}$ $\lambda$ 적분 및 기타 역 문제. "과학의 역 문제는 컴퓨터 단층 촬영에서 이미지를 계산하거나, 음향에서 소스를 재구성하거나, 중력을 측정하여 지구의 밀도를 계산하는 등의 원인을 일련의 관찰로부터 계산하는 과정입니다. 필드. 여기에 "SPSS는 모든 매개 변수의 표준 편차를 제공하고 추가 매개 변수이에 부록으로 에러 전파를 사용하여 유도 할 수 있습니다 추가 코드가 포함되어 종이 .

Tikhonov 정규화에 대해 일반적으로 오해되는 것은 평활화의 양이 곡선 맞춤과 관련이 거의 없으며 평활화 계수를 사용하여 관심있는 매개 변수의 오류를 최소화해야합니다. 유효한 역 문제 상황에서 능선 회귀를 올바르게 사용하기 위해 해결하려는 특정 문제에 대해 더 많이 설명해야하며, 평활 요소 선택에 대한 많은 논문과 Tikhonov 정규화의 많은 용도는 다음과 같습니다. 약간 휴리스틱.

또한 Tikhonov 정규화는 많은 사람들에게있어 하나의 역 문제 처리입니다. Inverse Problems 저널의 링크를 따르십시오 .

— 칼
소스