Leave-one-Out 교차 검증에 대한 Shao의 결과는 언제 적용됩니까?


22

Jun Shao는 그의 논문 인 Cross-Validation에 의한 Linear Model Selection 에서 다변량 선형 회귀 분석에서 변수 선택 문제에 대해 LOOCV (Leave-One-Out Cross Validation) 방법이 '무증상 일관성이 없음'을 보여줍니다. 일반 영어에서는 변수가 너무 많은 모델을 선택하는 경향이 있습니다. 시뮬레이션 연구에서 Shao는 40 개의 관측치조차도 LOOCV가 다른 교차 검증 기술보다 성능이 떨어질 수 있음을 보여줍니다.

이 논문은 다소 논란의 여지가 있고 다소 무시됩니다 (출판 후 10 년이 지난 저의 화학 계측 동료들은 그 소식을 들어 본 적이없고 변수 선택을 위해 LOOCV를 행복하게 사용하고있었습니다 ...). 또한 그 결과가 원래의 제한된 범위를 넘어서 확장된다는 믿음이 있습니다 (저는 유죄입니다).

문제는 다음과 같습니다.이 결과는 얼마나 멀리 확장됩니까? 다음 문제에 적용 할 수 있습니까?

  1. 로지스틱 회귀 / GLM에 대한 변수 선택?
  2. Fisher LDA 분류를위한 변수 선택?
  3. 유한 한 (또는 무한한) 커널 공간을 가진 SVM을 사용한 변수 선택?
  4. 분류에서 모델 비교, 다른 커널을 사용하는 SVM?
  5. 선형 회귀 모형의 비교, MLR과 릿지 회귀 비교
  6. 기타

화학량 론 책에 무언가가 있어야합니다. 내가 알고있는 유일한 사람은 LOO를 사용하는 것입니다.

답변:


14

Shao의 결과가 적용 가능한지 말하기 전에 모델의 목적을 지정해야합니다. 예를 들어, 목적이 예측 인 경우 LOOCV는 의미가 있으며 변수 선택의 불일치는 문제가되지 않습니다. 반면에 중요한 변수를 식별하고 변수가 반응 변수에 어떤 영향을 미치는지 설명하는 것이 목적이라면 Shao의 결과는 분명히 중요하며 LOOCV는 적합하지 않습니다.

AIC는 점근 LOOCV이고 BIC는 leave-에 점근 동등 CV -out 여기서 --- 선형 모델만을위한 BIC 결과. 따라서 BIC는 일관된 모델 선택을 제공합니다. 따라서 Shao의 결과를 간략하게 요약하면 AIC가 예측에 유용하지만 BIC는 설명에 유용하다는 것입니다.V = N [ 1 - 1 / ( 로그 ( N ) - 1 ) ]vv=n[11/(log(n)1)]


1
Shao는 이 성장 하는 동안 가 고정 되면 폴드 CV가 일치하지 않는 것으로 나타났습니다 . nkn
shabbychef

1
BIC는 n과 함께 성장하고 있습니다.
Rob Hyndman

1
Shao paper의 * IC <-> * CV 대응은 선형 모델 에서만 작동 하고 BIC는 특정 k를 가진 k- 접이식 CV와 동일 하다는 것을 조용히 상기시켜줍니다 .

nv/n1n v k k k k 1 k n v / n = 1 / k kninfnvkkkk1knv/n=1/k케이

3
@mbq : 아니오-Stone 1977의 AIC / LOO 증명은 선형 모델을 가정 하지 않습니다 . 이러한 이유로 Shao의 결과와 달리 널리 인용됩니다. 예를 들어 EOSL 또는 Handbook of Computational Statistics의 모델 선택 장 또는 모델 선택에 대한 장 / 종이를 참조하십시오. 결과를 도출하기 위해 Fisher 정보 / 점수를 계산하지 않아도되는 방식이 다소 깔끔하기 때문에 페이지 길이보다 길고 읽을 가치가 있습니다.
ars September

7

이 논문은 다소 논란의 여지가 있고 다소 무시된다

실제로는 모델 선택 이론이 어디에서 관련이 있는지 잘 알려져 있지만, 잘못 해석되어 있습니다. 실제 문제는 야생에서의 모델링 관행과 얼마나 관련이 있는지입니다. LOOCV가 실제로 일치하지 않는지 조사하고 결정하기 위해 제안한 사례에 대해 시뮬레이션을 수행한다고 가정하십시오. 얻을 수있는 유일한 이유는 이미 "true"모델을 알고 있기 때문에 "true"모델을 복구 할 확률이 1로 수렴하지 않는다고 판단 할 수 있기 때문입니다. 현상은 선형 모델에 의해 기술되고 "참"모델은 고려되는 것의 부분 집합이다)?

Shao의 논문은 이론적 틀을 발전시키는 데 확실히 흥미 롭습니다. "진정한"모델을 실제로 고려하고 있다면 모자를 걸기위한 일관성있는 결과를 얻을 수 있습니다. 그러나 당신이 묘사 한 사례에 대한 실제 시뮬레이션이 얼마나 흥미로운 지 잘 모르겠습니다. 이것이 EOSL과 같은 대부분의 책이 Shao의 결과에 크게 초점을 맞추지 않고 모델 선택의 기준으로 예측 / 일반화 오류에 초점을 맞추는 이유입니다.

편집 : 귀하의 질문에 대한 가장 짧은 대답은 Shao의 결과는 최소 제곱 추정, 2 차 손실 함수를 수행 할 때 적용 할 수 있습니다. 더 넓지 않습니다. (양 (2005?)의 논문이 부정적 답변으로 일관성과 효율성을 가질 수 있는지 조사한 흥미로운 논문이 있다고 생각합니다.)


나는 야생에서 진정한 모델을 알고 있는지 여부는 관련이 없다고 생각합니다. '진정한'모델이 있다면 더 찾을 수있는 방법을 선호합니다.
shabbychef

2
@ shabbychef : 동의하지 않습니다. 그러나 " '진정한'모델이 있고 고려중인 경우."
ars September

1
또한 내 두 번째 단락은 실제로 귀하의 의견을 지적합니다. 이것은 좋은 재산이지만 그것이 어떻게 야생에 적용되는지는 분명하지 않습니다. 어떤 의미에서는 위안이 되더라도 잘못 인도 될 수 있습니다.
ars September

2
@ars- 'true'모델의 "선형성"이 선형 모델에서 'true'모델을 복구하는 유일한 방법은 아닙니다. '참'모델의 비선형 성분이 노이즈 항에 의해 잘 모델링 될 수 있다면 (예를 들어 비선형 효과가 서로 상쇄되는 경향이있는 경우) 선형 모델을 '참'이라고 부를 수 있다고 생각합니다. 이것은 선형 테일러 시리즈의 나머지가 무시할 수 있다고 가정하는 것과 유사합니다.
확률

1
따라서 현실에 대한 합리적인 선형 근사가 존재하면 BIC / leave- -out은 그 근사를 일관되게 찾을 수 있습니다. AIC / leave-one-out은 지속적으로 찾지 못합니다. V
확률

6



10/101


증거 이외에도, 예를 들어 내가 언급 한 다섯 가지 사례 중 하나에 대한 시뮬레이션 연구가 있는지 궁금합니다.
shabbychef

좀 만들고 싶어?

2
나는한다; 그래도 결과를 공유하려면 훨씬 더 많은 R을 배워야 할 것입니다.
shabbychef

1
@ shabbychef : 이것을해야합니까? 그런데 변수 선택에 CV를 사용하거나 사용하지 않는 화학 측정 전문가를 계속 세는 경우 거부 할 사람들의 측에서 저를 셀 수 있습니다 .a) 아직 실제 데이터가 없었기 때문입니다. 단일 모델 비교도 가능하도록 충분한 경우 (샘플)로 설정하고 b) 내 분광 데이터의 경우 관련 정보는 일반적으로 스펙트럼의 큰 부분에 대해 "번져"있으므로 어려운 변수 선택을 수행하지 않는 정규화를 선호합니다.
cbeleites 지원 모니카

1

1) @ars의 답변은 Yang (2005), "AIC와 BIC의 강점을 공유 할 수 있습니까?"라고 언급합니다. . 느슨하게 말해서, 당신은 모델 선택 기준이 일관성 (정확한 모델이 있고 실제로 고려되는 모델 중 하나라면 올바른 모델을 선택하는 경향이 있음)과 효율성 (가장 낮은 평균을 달성)을 모두 달성 할 수없는 것 같습니다 선택한 모델 중 평균 제곱 오차). 평균에 맞는 모형을 선택하는 경향이있는 경우 때로는 너무 작은 모형을 얻을 수 있지만 실제 예측 변수가 누락되는 경우가 많으며 항상 가짜 예측 변수가 몇 개인 사람보다 MSE 측면에서 더 나쁩니다.

따라서 앞에서 언급했듯이 정확한 변수를 얻는 것보다 좋은 예측을하는 데 관심이 있다면 LOOCV 또는 AIC를 계속 사용하는 것이 좋습니다.

2) 그러나 나는 그의 논문 중 다른 두 가지를 지적하고 싶었다 : Yang (2006) "분류를위한 학습 방법 비교"Yang (2007) "회귀 절차를 비교하기위한 교차 검증의 일관성" . 이 논문은 선형 모델보다 느린 속도로 수렴하는 모델을 비교하는 경우 훈련 대 테스트 데이터의 비율이 0으로 줄어들지 않아도된다는 것을 보여줍니다.

따라서 원래 질문 1-6에 더 직접 답하기 위해 : 선형 모델을 서로 비교할 때 Shao의 결과가 적용됩니다. 회귀 또는 분류 여부에 관계없이 느린 속도로 수렴하는 비모수 적 모델을 비교하는 경우 (또는 하나의 선형 모델을 하나의 비모수 적 모델과 비교하는 경우) 훈련에 대부분의 데이터를 사용할 수 있으며 모델 선택에 일관성이있는 CV를 가질 수 있습니다. .. 그러나 Yang은 LOOCV가 너무 극단적이라고 제안합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.