수축 방법은 어떤 문제를 해결합니까?


61

연말 연시에는 통계 학습의 요소 (Elements of Statistical Learning)로 불 옆에서 몸을 구부릴 수있는 기회가 주어졌습니다 . (자주 주의적) 계량 경제학 관점에서 볼 때, 능선 회귀, 올가미 및 최소 각도 회귀 (LAR)와 같은 수축 방법의 사용을 파악하는 데 어려움을 겪고 있습니다. 일반적으로 매개 변수 추정 자체에 편견이 있거나 최소한 일관성을 유지하는 데 관심이 있습니다. 수축 방법은 그렇게하지 않습니다.

이 방법은 통계학자가 회귀 함수가 예측 변수에 너무 반응 적으로 반응하여 예측 변수가 실제보다 더 중요하다고 생각할 때 사용됩니다. 다시 말해, 과적 합.

그러나 OLS는 일반적으로 편견이없고 일관된 추정치를 제공합니다. (각주) 나는 선택 과정이 고려되지 않았기 때문에 너무 큰 추정치를 제공하지 않고 너무 작은 신뢰 구간을 과도하게 맞추는 문제를 항상 보았습니다. ESL은이 후자를 언급합니다).

편견 / 일관되지 않은 계수 추정은 결과의 편견 / 일관된 예측으로 이어집니다. 축소 방법은 예측을 OLS보다 평균 결과에 더 가깝게 밀고 테이블에 정보를 남기는 것처럼 보입니다.

다시 말하지만, 수축 방법으로 어떤 문제를 해결하려고하는지 알 수 없습니다. 뭔가 빠졌습니까?

각주 : 계수 식별을 위해서는 전체 열 순위 조건이 필요합니다. 오차에 대한 외 생성 / 제로 조건부 평균 가정과 선형 조건부 기대 가정은 계수에 제공 할 수있는 해석을 결정하지만 이러한 가정이 맞지 않더라도 편차가 없거나 일관된 것으로 추정됩니다.


1
여기에 몇 가지 관련 질문이 있습니다. 이것은 하나입니다 : stats.stackexchange.com/questions/10478/…
추기경

2
파라미터 일관성을 달성하기 위해 수축 파라미터를 선택하는 데는 단순하고 상당히 약한 조건이 있습니다. 이것은 유명한 Knight & Fu (2000) 논문에 자세히 나와 있으며 능선 회귀 및 올가미를 훨씬 능가하는 커버 케이스입니다. 모델 선택 일관성은 지난 몇 년 동안 인기있는 주제가되었습니다.
추기경

@cardinal, 올가미에 대한 모델 일관성 결과에 대한 포인터 덕분에; 내가 볼게 물론 이러한 결과는 OLS에서도 찾을 수 있습니다. 결과는 두 절차가 모두 같은 장소에 있다는 것을 의미합니다. 그래서 나는 왜 우리가 OLS보다 올가미를 사용하는지 이해하지 못합니다.
Charlie

1
모형 일관성은 모수 추정값의 점근 적 일관성과 다른 개념입니다. 이 차이점에 대해 알고 있습니까?
추기경

@cardinal, 모델 일관성에 따르면 올바른 예측 변수가 포함되어 있다고 가정합니다. OLS를 사용하는 선택 과정에서 AIC 기준을 사용하여이를 얻을 수 있습니다. 나는 당신이 한계에서 올가미가 "잘못된"계수로 올바른 모델을 선택한다는 것을 암시한다고 생각합니다.
Charlie

답변:


47

나는 당신이 더 깊은 대답을 원한다고 생각하며, 다른 사람이 그것을 제공하도록해야하지만 느슨한 느슨한 개념적 관점에서 능선 회귀에 대한 생각을 줄 수 있습니다.

OLS 회귀 분석은 편향되지 않은 모수 추정값을 산출합니다 (즉, 이러한 표본이 수집되고 모수를 무한정 추정하는 경우 모수 추정값의 샘플링 분포는 실제 값을 중심으로 함). 또한 샘플링 분포는 가능한 모든 비 편향 추정치의 가장 낮은 분산을 갖습니다 (이는 평균적으로 OLS 모수 추정치가 다른 일부 편견없는 추정 절차의 추정치보다 실제 값에 더 가깝다는 것을 의미합니다). 이것은 오래된 뉴스이며 (죄송합니다.이 사실을 잘 알고 있습니다) 분산이 낮다 는 사실 이 끔찍하게 낮다 는 것을 의미하지는 않습니다.. 어떤 상황에서는, OLS 추정기가 본질적으로 무가치 할 정도로 샘플링 분포의 분산이 클 수 있습니다. (이 문제가 발생할 수있는 상황은 다중 공선 성이 높은 경우입니다.)

그러한 상황에서해야 할 일은 무엇입니까? 글쎄, 분산이 더 낮은 다른 추정기가 발견 될 수 있습니다 (물론, 위에 규정 된 것을 감안할 때 바이어스되어야 함). 즉, 우리는 편차가 적을 때 편견을 없애고 있습니다. 예를 들어, 실제 값보다 약간 낮지 만 실제 값에 실질적으로 더 가까운 모수 추정값을 얻습니다. 이 상충 관계가 가치가 있는지 여부는이 상황에 직면했을 때 분석가가해야 할 판단입니다. 어쨌든 능선 회귀는 그러한 기술입니다. 다음 (완전히 제작 된) 그림은 이러한 아이디어를 설명하기위한 것입니다.

여기에 이미지 설명을 입력하십시오

이것은 능선 회귀에 대한 짧고 간단하며 개념적인 소개를 제공합니다. 올가미와 LAR에 대해서는 잘 모르지만 동일한 아이디어가 적용될 수 있다고 생각합니다. 올가미 및 최소 각도 회귀에 대한 자세한 내용은 여기 에서 찾을 수 있습니다 . "간단한 설명 ..."링크가 특히 유용합니다. 이것은 수축 방법에 대한 훨씬 더 많은 정보를 제공합니다.

이것이 가치가 있기를 바랍니다.


12
이것은 좋은 개념적 힌트를 제공합니다. 두 번째 단락에서는 편견에 중점을두고 있지만 중요한 경고는 없습니다. (a) 선형 모형이 "정확한"(그리고 언제입니까?) 및 (b) 모든 관련 예측 변수가 모형에 포함되어 있지 않는 한 계수 추정치는 여전히 일반적으로 편향됩니다.
추기경

5
편견 / 분산 트레이드 오프에 대한 나의 제한된 이해는 (원본 포스터와 같이) 설명을 찾는 사람은 편차가 더 크더라도 편견을 선호하지만 편견이 있더라도 약간의 편차가있는 것을 선호 할 수 있다는 것입니다. 소개합니다.
Wayne

2
@ 웨인 : 사실, 이것은 문제의 요점 중 하나입니다. ESL의 많은 관점은 예측 관점에서 나오므로 분석의 많은 부분을 채색합니다. 특히 관측 설정에서 단일 계수에 대한 추론을 수행하는 것은 매우 미끄러운 문제입니다. 계수 추정값이 진정으로 "편향되지 않았다"고 주장하는 데에는 약간의 확신이 필요합니다.
추기경

1
어느 정도 시간이 지나면 이미 과도하게 많은 주석을 확장하려고 시도 할 수 있습니다.
추기경

@gung, 여기 당신이 관심을 가질만한 관련 메타 스레드가 있습니다.
Richard Hardy

16

추정기의 오차는 (제곱) 바이어스와 분산 성분 의 조합입니다 . 그러나 실제로 우리는 모델을 특정 유한 데이터 샘플에 맞추고 일부 샘플 모집단에서 평균적으로 0의 오차가 아니라 실제로 보유한 특정 데이터 샘플에서 평가 추정기의 총 오차를 최소화하려고합니다. (우리는 가지고 있지 않습니다). 따라서 오차를 최소화하기 위해 치우침과 분산을 모두 줄이려고합니다. 이는 종종 편차 성분을 크게 줄이기 위해 편견을 희생하는 것을 의미합니다. 분산이 높을 수있는 작은 데이터 집합을 처리 할 때 특히 그렇습니다.

초점 차이는 절차의 특성에 관심이 있는지 또는 특정 샘플에서 최상의 결과를 얻는 지에 달려 있다고 생각합니다. 빈번한 사람들은 일반적으로 전자가 그 틀 안에서 다루기가 더 쉽다는 것을 알게됩니다. 베이지안은 종종 후자에 더 중점을 둡니다.


9

적용 가능한 몇 가지 답변이 있다고 생각합니다.

  • 릿지 회귀는 예측 행렬이 전체 열 순위가 아닌 경우 식별을 제공 할 수 있습니다.
  • 올가미 및 LAR은 예측 변수 수가 관측치 수 (비단 일 문제의 다른 변형)보다 큰 경우에 사용할 수 있습니다.
  • 올가미와 LAR은 자동 변수 선택 알고리즘입니다.

능선 회귀에 관한 첫 번째 요점이 실제로 기능인지 확실하지 않습니다. 비 식별 처리를 위해 모델을 변경하고 싶다고 생각합니다. 모델링 변경이 없어도 OLS는이 경우 결과에 대한 독특하고 (편의되지 않은 / 일관된) 예측을 제공합니다.

두 번째 점이 어떻게 도움이 될 수 있는지 알 수 있지만, 편견 / 일관된 추정치를 산출하면서 관측치 수를 초과하는 모수의 개수가있는 경우에도 순방향 선택이 작동 할 수 있습니다.

마지막으로, 예를 들어 앞으로 / 뒤로 선택이 쉽게 자동화됩니다.

그래서 나는 여전히 실제 장점을 보지 못합니다.


6
일부 비고 : ( 1 )을 OLS 추정은 하지 예측의 행렬이 가득 순위가 아닌 경우 독특한. ( 2 ) 일관성은 점근 적 개념이므로 일련 의 추정자가 필요합니다 . 즉, 고려중인 순서 유형을 정의해야하며 관심있는 성장 유형 중요합니다. ( 3 ) 여러 유형의 일관성이 있으며 이들의 차이점을 이해하면 설명 할 수 있습니다. 조 및 유 (2006) 논문은 좋은 토론이있다. ( 4 ) 편견이 과대 평가되었습니다.
추기경

1
( 5 )의 능선 회귀의 원래 의욕 Hoerl & (1970) 켄 나드는 순위 결핍의 "소프트"형태의 병 에어컨 디자인 행렬을 처리하는 것이 었습니다.
추기경

1
@ 추기경, re. (1) : 죄송합니다. 계수의 추정치가 아니라 결과의 예측치를 의미했습니다.
Charlie

1
그래. 그 질문에 대한 각주가 더 좋습니다.
추기경

위의 의견과 같이 공개적으로 사용 가능한 Zhao & Yu (2006) 버전에 대한 링크는 다음과 같습니다 .
Richard Hardy

4

Biostatistics의 기본 적용 예는 다음과 같습니다.

난소 암의 존재와 유전자 세트 사이의 가능한 관계를 연구하고 있다고 가정합시다.

내 종속 변수는 이진 (0 또는 1로 코딩) 독립 변수는 단백질 데이터베이스의 데이터를 코딩합니다.

많은 유전학 연구에서 흔히 볼 수 있듯이 내 데이터는 키보다 훨씬 넓습니다. 216 개의 관측치가 있지만 4000 개 정도의 예측 변수가 있습니다.

선형 회귀가 올바르게 수행되었습니다 (시스템이 너무 과도하게 결정됨).

기능 선택 기술은 실제로 실현 가능하지 않습니다. 4,000 개 이상의 서로 다른 독립 변수를 사용하면 가능한 모든 서브 세트 기술이 완전히 벗어 났으며 순차적 인 기능 선택조차 모호합니다.

가장 좋은 방법은 탄력적 그물에 로지스틱 회귀를 사용하는 것입니다.

특징 선택 (중요한 독립 변수를 식별)을 수행하기 위해 능선 회귀가 실제로 적절하지 않습니다.

중요한 영향을 미치는 독립 변수가 216 개 이상일 가능성이 전적으로 가능하므로 올가미를 사용하지 않아야합니다 (올가미는 관측치보다 더 많은 예측 변수를 식별 할 수 없음) ...

탄력있는 그물을 입력하십시오 ...


1
그러한 상황을 다루는 교과서를 제공 할 수 있습니까?
Qbik

0

선형 회귀 수축 방법으로 해결할 수있는 또 다른 문제는 관측 데이터에 대한 고차원 적 사례 제어 연구에서 평균 처리 효과 (ATE)의 낮은 분산 (아마도 편향되지 않음) 추정치를 얻는 것입니다.

구체적으로, 1) 많은 변수가있는 경우 (정확한 매칭을위한 변수를 선택하기 어렵게 함) 2) 성향 스코어 매칭은 처리 및 대조군 샘플에서 불균형을 제거하지 못하며, 3) 다중 공선 성이 존재하는 경우 무증상 추정값을 얻는 적응 올가미 (Zou, 2006)와 같은 몇 가지 기술이있다. 인과 추론에 올가미 회귀를 사용하고 계수 추정치에 대한 신뢰 구간 생성에 대해 논의한 여러 논문이 있습니다 (다음 게시물 : 변수 선택에 올가미를 사용한 후 추론 참조 ).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.