불이익 회귀 모형으로부터 R- 제곱 및 통계적 유의성 추정


20

나는 R 패키지를 사용하고 나는 사람이 중요하다있는 예측과 약간의 지식을 많이 가지고 어디에 데이터 집합에 대한 계수의 수축 추정치를 얻을 수 있습니다. 튜닝 매개 변수 L1 및 L2를 선택하고 계수에 만족 한 후 R- 제곱과 같은 모형 적합도를 통계적으로 알 수있는 방법이 있습니까?

또한, 모델의 전체적인 의미를 테스트하는 데 관심이 있습니다 (즉, R² = 0 또는 모두 = 0).

나는 여기 에서 비슷한 질문에 대한 답변을 읽었 지만 내 질문에 대답하지 못했습니다. 이 내가 사용하는 R 패키지에 훌륭한 튜토리얼의 여기가 , 그리고 저자 Jelle Goeman는 범 회귀 모델에서 신뢰 구간에 대한 튜토리얼의 마지막에 다음과 같은 메모를했다 :

회귀 계수 또는 기타 추정 수량의 표준 오차를 요청하는 것은 매우 자연스러운 질문입니다. 원칙적으로 이러한 표준 오차는 예를 들어 부트 스트랩을 사용하여 쉽게 계산할 수 있습니다.

그러나이 패키지는 일부러 제공하지 않습니다. 그 이유는 불이익을받는 추정 방법에서 발생하는 것과 같이 강하게 치우친 추정에는 표준 오차가 그다지 의미가 없기 때문입니다. 불이익 추정은 상당한 편향을 도입하여 추정기의 분산을 줄이는 절차입니다. 따라서 각 추정기의 치우침은 평균 제곱 오차의 주요 구성 요소 인 반면, 분산은 작은 부분에만 영향을 줄 수 있습니다.

불행히도, 대부분의 처벌 회귀 적용에서는 충분히 정확한 바이어스 추정치를 얻는 것이 불가능합니다. 부트 스트랩 기반 계산은 추정값의 분산 만 평가할 수 있습니다. 신뢰할 수있는 편견없는 추정값을 사용할 수있는 경우에만 바이어스의 신뢰할 수있는 추정값을 사용할 수 있습니다.

따라서 불이익 추정치의 표준 오류를보고하면 스토리의 일부만 알 수 있습니다. 그것은 편견으로 인한 부정확성을 완전히 무시하고 큰 정밀도의 잘못된 인상을 줄 수 있습니다. 부트 스트랩 기반 신뢰 구간과 같이 추정치 분산의 평가만을 기반으로하는 신뢰 진술을하는 것은 확실히 실수입니다.


1
물론 R- 제곱의 추정치를 빠르게 얻을 수있는 한 가지 방법은 원래 데이터에서 적합치를 예측하고 그로부터 R- 제곱을 취하는 선형 모델을 피팅하는 것입니다. 그러나 이것은 R- 제곱의 막대한 과잉 및 편향 추정치 인 것처럼 보입니다.
Stephen Turner

나는 가까운 게시물에 "유사한"질문을하기 때문에 이것을 주석으로 추가합니다 (따라서 답변 을 제공 할 자격이 있는지 모르겠습니다 ). 그러나 귀하의 질문에 대해서는 특별히 요구하지 않고 R 제곱을 계산할 수있는 것처럼 보입니다 분포 가정 (가정적인 방법으로 가설 검정에 필요함). 데이터가 충분하지 않은 경우 홀드 아웃 세트를 사용하여 r- 제곱을 계산하거나 k- 폴드 유효성 검사를 사용할 수 없습니다 (각 폴드마다 전체 처벌 프로세스를 실행하고 각 폴드에서 r- 제곱 평균을 계산할 수 없음) 피팅에 사용)?
B_Miner

1
@B_Miner, 폴드 교차 검증은 일반적으로 실제 관심 수량을 추정하지 않기 때문에 R 2 의 편향된 추정치를 제공하는 경향이 있습니다. 많은 (대부분의) 유사한 절차에는 동일한 문제가 있습니다. 케이아르 자형2
추기경

1
@Stephen, 실제로 당신이 관심있는 양입니까? 벌칙에 의해 유발 된 편향으로 인해, 이미 편견에 대해 매우 좋은 추정치를 가지고 있지 않다면 설명 된 편차 만 보는 것은 바람직하지 않습니다. 추론의 기초로 R 2 를 사용하는 전체 아이디어 는 추정치의 편견에 근거합니다. 회귀에 관한 주요 교과서조차도 이것을 잊어 버린 것 같습니다. (예를 들어, 다중 회귀 사건에서 Seber와 Lee의 다소 잘못된 R 2 처리를 참조하십시오 .)아르 자형2 아르 자형2아르 자형2
추기경

1
나는 가 일반적인 방식으로 정의 될 수 있으며 때로는 도움이 될 수 있다고 생각합니다 . 표준 오차가 편견을 설명하지는 않지만 "보수적이며 0으로 줄어든"수량의 표준 오차입니다. 그들은 공식적인 추론에 사용될 수는 없지만 결코 사용해서는 안된다는 결론을 내리기 전에 더 많은 토론을 듣고 싶습니다. 아르 자형2
Frank Harrell

답변:


4

주어진 Jelle의 의견에 대한 나의 첫 반응은 "bias-schmias"입니다. "대량의 예측 변수"가 의미하는 바에주의해야합니다. 이것은 다음과 관련하여 "대형"일 수 있습니다.

  1. 데이터 포인트 수 ( "big p small n")
  2. 변수를 조사해야하는 시간
  3. 거대한 행렬을 반전시키는 계산 비용

내 반응은 포인트 1과 관련하여 "대형"을 기준으로 한 것입니다. 이는이 경우 일반적으로 얻을 수있는 분산 감소에 대한 치우침의 가치가 있기 때문입니다. 바이어스는 "장기적으로"중요합니다. 작은 샘플을 가지고 있다면 누가 "장기"에 관심이 있습니까?

R2R2

이상적으로이 "예측 오류"는 모델링 상황의 컨텍스트를 기반으로해야합니다. 기본적으로 "모델이 데이터를 얼마나 잘 재현합니까?"라는 질문에 대답하려고합니다. 당신의 상황의 맥락은 실제 세계에서 "얼마나 잘"의 의미를 말할 수 있어야합니다. 그런 다음 이것을 일종의 수학 방정식으로 변환해야합니다.

아르 자형이자형에스에스=나는=1(와이나는와이^나는,나는)2
와이^나는,나는와이나는와이나는==×
아르 자형이자형에스에스==1나는=1(와이나는와이^나는,)2
β에이에스에스영형β기음영형에스아르 자형에이나는이자형

3
케이>>1

1

R 패키지 hdm 과 Stata 패키지 올가미 팩 은 올가미에 대한 공동 유의성 테스트를 지원합니다. 이론은 예측 자 수가 관측치 수에 비해 클 수 있도록합니다. 테스트 배후의 이론과 적용 방법은 hdm 문서 에 간략하게 설명되어 있습니다. 요컨대, 이론 중심의 벌칙에 대한 틀을 기반으로한다 (Belloni, Chernozhukov 및 Hansen 등이 개발). 이 논문 은 기본 이론에 대해 더 많이 알고 싶다면 좋은 출발점입니다. 유일한 단점은 테스트가 올가미 및 (제곱근 올가미)에 대해서만 작동한다는 것입니다. 다른 형벌 회귀 방법에는 해당되지 않습니다.

Belloni, A., Chen, D., Chernozhukov, V. and Hansen, C. (2012), 저명한 영역에 적용 할 수있는 최적의 기기를위한 스파 스 모델 및 방법. 계량 경제학, 80 : 2369-2429.


논문의 전체 참조를 추가하십시오 (링크는 죽을 수 있음)
Antoine
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.