로서


37

TL, DR은 : 그것은 그 표시 반대로 조언을 자주 반복하는, 교차 검증 (LOO-CV)두고 온 아웃 -이며,K 와 -fold CVK (주름의 수)와 동일한N (개수 관찰) 훈련의 -있는 일반화 오류의 수익률 추정치 적어도 어떤을위한 변수K , 아닌 대부분의 변수를 특정 가정 안정성 (잘 모르겠어요 모델 / 알고리즘, 데이터 세트, 또는 두 가지 모두에 조건을하는 이 안정성 조건을 실제로 이해하지 못하기 때문에 정확합니다).

  • 누군가이 안정성 상태가 정확히 무엇인지 명확하게 설명 할 수 있습니까?
  • 선형 회귀가 그러한 "안정한"알고리즘 중 하나라는 것이 사실입니까, 그 맥락에서 LOO-CV는 일반화 오차 추정치의 편차와 편차에 관한 한 CV의 엄선 된 최선의 선택입니까?

종래의 지혜의 선택이다 K 에서 K -fold CV는 편향 - 분산 트레이드 오프를 따라, 이러한 낮은 값 K (2 접근) 비관적 바이어스가 일반화 오차의 추정을 초래할하지만 낮은 편차, 높은 값 반면 의 K (접근 N 이하 바이어스하지만 큰 차이로되어 추정치 우위). K 로 증가하는 이러한 분산 현상에 대한 일반적인 설명 은 통계 학습 요소 (7.10.1 단원) 에서 가장 두드러지게 나타납니다 .

K = N 인 경우, 교차 검증 추정기는 실제 (예상) 예측 오차에 대해 거의 편향되지 않지만 N "트레이닝 세트"가 서로 유사하기 때문에 분산이 높을 수 있습니다.

함축 된 의미는 것을되는 N 유효성 검사 오류가 더 높은 자신의 합이 더 변수가되도록 상관 관계가있다. 이 추론은이 사이트 ( 여기 , 여기 , 여기 , 여기 , 여기 , 여기 , 여기 등 )와 다양한 블로그 등에서 많은 답변으로 반복되었습니다 . 그러나 자세한 분석은 사실상 이루어지지 않습니다. 분석 결과에 대한 직관 또는 간단한 스케치 만 제공합니다.

그러나 일반적으로 내가 실제로 이해하지 못하는 특정 "안정성"조건을 인용하여 모순되는 진술을 찾을 수 있습니다. 예를 들어, 이 모순 된 답변 은 2015 년 논문에서 " 불안정성이 낮은 모델 / 모델링 절차의 경우 LOO가 가장 작은 변동성을 갖는 경우가 많다"고 강조 하는 몇 개의 단락을 인용합니다 (강조 추가). 이 논문 (5.2 절)은 모델 / 알고리즘이 "안정적"인 한 LOO가 의 가장 가변적 인 선택을 나타내는 것에 동의하는 것으로 보인다 . 문제 심지어 다른 자세를 복용도있다 본 논문 의 편차 "라고 (따름 2), k는 에 의존하지 않는다 [...] 배 교차 검증 (K)Kkk""라는 특정 "안정성"조건을 다시 인용합니다.

LOO가 가장 가변적 인 K 폴드 CV 일 수있는 이유에 대한 설명은 충분히 직관적이지만, 반 직관이 있습니다. 평균 제곱 오차 (MSE)의 최종 CV 추정치는 각 접기에서 MSE 추정의 평균입니다. 그래서 K 최대 증가 N 의 CV 추정값은 랜덤 변수의 증가의 평균이다. 그리고 우리는 평균의 분산이 평균화되는 변수의 수에 따라 감소한다는 것을 알고 있습니다. 따라서 LOO가 가장 가변적 인 K 폴드 CV가 되려면 MSE 추정치 간의 상관 관계 증가로 인한 분산의 증가가 평균보다 많은 폴드 수로 인한 분산의 감소보다 크다는 것이 사실이어야합니다.. 그리고 이것이 사실인지 전혀 분명하지 않습니다.

이 모든 것에 대해 완전히 혼란스러워하면서 선형 회귀 분석을 위해 약간의 시뮬레이션을 실행하기로 결정했습니다. K = 2, 5, 10 또는 50 = N 인 K- 폴드 CV를 사용하여 일반화 오류를 추정 할 때마다 = 50 및 3 개의 상관되지 않은 예측 변수를 사용하여 10,000 개의 데이터 세트를 시뮬레이션했습니다 . R 코드가 여기 있습니다. 다음은 모든 10,000 데이터 세트에 대한 CV 추정치의 결과 평균 및 분산입니다 (MSE 단위).NKKN

         k = 2 k = 5 k = 10 k = n = 50
mean     1.187 1.108  1.094      1.087
variance 0.094 0.058  0.053      0.051

이 결과는 값이 높을수록 비관적 편향이 적을 것으로 예상 되지만 LOO의 경우 CV 추정값의 편차가 가장 높지 않고 가장 낮다는 것을 확인하는 것으로 보입니다.K

따라서 선형 회귀는 위의 논문에서 언급 한 "안정한"사례 중 하나 인 것으로 보입니다. 여기서 높이는 것은 CV 추정값의 편차를 높이는 것이 아니라 감소하는 것과 관련이 있습니다. 그러나 내가 아직도 이해하지 못하는 것은 :K

  • 이 "안정성"조건은 정확히 무엇입니까? 모델 / 알고리즘, 데이터 세트 또는 둘 다에 어느 정도 적용됩니까?
  • 이 안정성에 대해 직관적으로 생각할 수있는 방법이 있습니까?
  • 안정적이고 불안정한 모델 / 알고리즘 또는 데이터 세트의 다른 예는 무엇입니까?
  • 대부분의 모델 / 알고리즘 또는 데이터 세트가 "안정적"이라고 가정하여 가 일반적으로 계산 가능한만큼 높게 선택되어야 한다고 가정하는 것이 상대적으로 안전 합니까?케이

1
+1. 시뮬레이션 결과에서 "의미"란 정확히 무엇입니까? 일반화 오류의 평균 CV 추정치 (평균 10000 개 데이터 세트)? 그러나 우리는 그것을 무엇과 비교해야합니까? 실제 일반화 오류로부터의 편향 즉, 평균 제곱 편차를 나타내는 것이 더 의미가 있습니다. 또한이 경우 "실제 일반화 오류"는 무엇입니까? 주어진 N = 100 데이터 세트에 대한 추정치의 진정한 일반화 오류? 또는 실제 일반화 오류의 예상 값 (모든 N = 100 데이터 세트에 대한 예상 값)? 또는 다른 것?
amoeba는 Reinstate Monica가

3
+1. en.wikipedia.org/wiki/를 한 눈에 살펴보면 ,이 맥락에서 안정성은 알고리즘이 N - 1 예제로 훈련 세트에 대해 유사한 결과를 생성한다는 것을 의미합니다 . 비슷한 의미의 차이가 낮은 가치에 의해 제한되는 일부 손실 함수NN1
Łukasz Grad

1
그 외에도에서, 나는 최근에 (아마 여기 CV에 대한 교차 검증에 우리의 주요 전문가 중 하나입니다 WHO) @DikranMarsupial에 대해 이야기 한 코멘트에 여기 - 그는 Kohavi의 읽을 제안 1,995 종이 . Dikran은 안정성에 대해서도 이야기했습니다. 불행히도, 나는 그 이후로 그것을 따르지 않았습니다.
아메바는 분석 재개 모니카는 말한다

2
나는 그렇게 생각하지 않습니다, @Jake. 내가 쓴 내용은 "카운터 직관"을 무효화하지만 주된 "직관"(다른 폴더의 모델에 대한 의존도가 높음)은 여전히 ​​유효합니다.
amoeba는 Reinstate Monica가

1
를 사용하여 분산이 감소한다는 결론을 뒷받침하는 또 다른 시뮬레이션 : stats.stackexchange.com/a/357749/28666 . 케이
amoeba는

답변:


15

이 답변 은 바이어스 에 대한 나의 대답 LOOCV 가 항상 더 높은 분산으로 이어지지 않는 이유를 설명하는 Leave-one-Out 대 K- 폴드 교차 검증의 분산에 이어집니다. 비슷한 접근 방식에 따라 LOOCV 특이 치와 "불안정한 모델"이있을 때 더 큰 분산으로 이어지는 사례를 강조하려고합니다 .

알고리즘 안정성 (학습 이론)

알고리즘 안정성에 관한 주제는 최근 하나이며, 지난 20 년 동안 몇 가지 고전적이고 비 효과적인 결과가 입증되었습니다. 여기 종종 인용되는 몇 가지 논문이 있습니다.

이해하기 가장 좋은 페이지 는 아마도 매우 지식이 많은 사용자가 작성한 훌륭한 요약을 제공하는 위키 백과 페이지 입니다.

안정성의 직관적 정의

직관적으로, 안정적인 알고리즘은 훈련 데이터가 약간 수정 될 때 예측이 크게 변하지 않는 알고리즘입니다.

공식적으로 기술 조건과 계층 구조로 연결된 6 가지 버전의 안정성이 있습니다 . 예를 들어 여기 에서이 그래픽을 참조하십시오 .

여기에 이미지 설명을 입력하십시오

그러나 목표는 간단합니다. 알고리즘이 안정성 기준을 만족할 때 특정 학습 알고리즘의 일반화 오류에 대한 경계를 넓히고 싶습니다. 예상 할 수 있듯이 안정성 기준이 더 제한적 일수록 해당 범위가 더 엄격 해집니다.

표기법

다음 표기법은 Wikipedia 기사에서 발췌 한 것으로 Bousquet 및 Elisseef 논문을 그대로 복사 한 것입니다.

  • 트레이닝 집합 은 알 수없는 분포 D에서 iid를 가져옵니다.에스={1=(엑스1,와이1),...,=(엑스,와이)}
  • z에 대한 가설 f 의 손실 함수 V ( f , z ) 로 정의됩니다.V에프V(에프,)
  • 번째 요소 를 제거하여 학습 세트를 수정합니다 . S | = { Z 1 , . . . , Z I - 1 , Z의 I + 1 , . . . , z m }나는에스|나는={1,...,나는1,나는+1,...,}
  • 또는 상기 대체하여 번째 요소 : S = { Z 1 , . . . , z i - 1 , z나는에스나는={1,...,나는1,나는',나는+1,...,}

공식적인 정의

아마도 흥미로운 학습 알고리즘이 준수해야 할 가장 강력한 안정성 개념은 균일 한 안정성 개념 일 것입니다 .

균일 한 안정성 알고리즘은 다음과 같은 경우 손실 함수 V에 대해 균일 한 안정성 갖습니다 .βV

에스  나는{1,...,},  저녁을 먹다|V(에프에스,)V(에프에스|나는,)|  β

의 함수로 간주되는 용어 ββ m 으로 쓸 수 있습니다 . 우리는 β m1로 감소 하면 알고리즘이 안정적이라고 말합니다.βββ . 약간 약한 형태의 안정성은 다음과 같습니다.1

가설 안정성

나는{1,...,},  이자형[ |V(에프에스,)V(에프에스|나는,)| ] β

한 점이 제거되면 학습 알고리즘의 결과 차이는 평균 손실 손실 차이 ( 표준)로 측정됩니다. 직관적으로 : 샘플의 작은 변화로 인해 알고리즘이 근처의 가설로만 이동할 수 있습니다.1

이러한 형태의 안정성의 장점은 안정적인 알고리즘의 편향과 분산에 대한 경계를 제공한다는 것입니다. 특히 Bousquet는 2002 년에 Uniform and Hypothesis 안정성에 대한 이러한 한계를 입증했습니다. 그 이후 안정성 조건을 완화하고 한계를 일반화하기 위해 많은 노력이 이루어졌습니다 (예 : 2011 년 Kale, Kumar, Vassilvitskii 는 사각형 안정성의미 함). 더 나은 분산 정량적 분산 감소 범위를 제공합니다.

안정적인 알고리즘의 예

다음 알고리즘은 안정적이고 일반화 범위가 입증되었습니다.

  • 정규화 된 최소 제곱 회귀 (적절한 사전)
  • 0-1 손실 기능을 가진 KNN 분류기
  • 제한된 커널과 큰 정규화 상수를 가진 SVM
  • 소프트 마진 SVM
  • 분류를위한 최소 상대 엔트로피 알고리즘
  • 배깅 레귤레이터 버전

실험 시뮬레이션

이전 스레드에서 실험을 반복하면 ( 여기 참조 ) 이제 데이터 세트에 특정 비율의 특이 치가 도입됩니다. 특히:

  • [.5,.5]
  • [20,20]

여기에 이미지 설명을 입력하십시오

이전과 같이 시뮬레이션을 수행하고 MSE의 평균 MSE 및 분산을 플로팅하면 Bengio & Grandvalet 2004 논문 의 실험 2와 매우 유사한 결과가 나타 납니다 .

왼쪽 : 특이 치가 없습니다. 오른쪽 : 3 % 이상치.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

(마지막 그림에 대한 설명은 연결된 논문을 참조하십시오)

설명

다른 스레드에 대한 Yves Grandvalet의 답변 인용 :

직관적으로, [불안정한 알고리즘의 상황에서] 일대일 이탈은 존재하는 불안정성에 대해 눈을 멀게 할 수 있지만, 훈련 데이터의 단일 지점을 변경하여 트리거되지 않을 수 있습니다. 훈련 세트.

실제로 LOOCV로 인한 분산 증가를 시뮬레이션하는 것은 매우 어렵습니다. 불안정성, 특이 치, 너무 많지 않은 반복 및 많은 반복의 특정 조합이 필요합니다. 선형 회귀가 상당히 안정적인 것으로 나타났기 때문에 아마도 이것이 예상됩니다. 흥미로운 실험은 더 높은 차원의 데이터와보다 불안정한 알고리즘 (예 : 의사 결정 트리)에 대해이를 반복하는 것입니다.


+1 그러나이 스레드가 연결된 스레드의 복제본으로 결국 닫힐 수 있기를 바랍니다 (바운티 기간이 끝나고 토론이 중단 될 때까지 기다렸다가 어떤 답변이 수락되는지 확인하십시오). 나중에 더 언급하겠습니다.
아메바는 모니카

나는 그 질문이 중복되었다고 확신하지 못한다. 내 질문은 주로 "안정성"의 의미에 대한 접근 가능한 설명을 얻는 데 대한 주요 질문을 구성하는 방법으로 LOO 문제의 분산을 사용합니다. OP의 맨 위와 맨 아래에있는 글 머리 기호 질문을 참조하십시오. 이 답변이 유용하지만 (+1), 안정성 질문에 대답하려고 시도한 것을 볼 수 없습니다 ... 두 번 사용하지만 용어를 사용하는 것처럼 보입니다. 독자가 이미 그 의미를 알고 있다고 가정합니다. 현재 양식으로 답변을 수락 할 수 있는지 확실하지 않습니다.
Jake Westfall

1
@JakeWestfall이 스레드가 결국 복제본으로 닫힐 수 있기를 "희망"한다고 썼을 때,이 스레드에서 허용되는 답변이 결국 요청한 내용을 포함 할만큼 충분히 커지기를 바랍니다.) Bengio & Grandvalet 논문, 실험 2를 살펴보십시오. 선형 회귀 및 가우스 데이터를 사용하면 LOOCV에 대한 최소 분산을 얻습니다 (결과도 마찬가지). 데이터에 특이 치의 일부가 포함 된 경우 LOOCV는 10-보다 큰 분산을 나타냅니다 접는 정도. 이것이 관련 "안정성"에 관한 힌트라고 생각합니다.
amoeba는 Reinstate Monica

3
나는 그것을 @XavierBourretSicotte 좋아한다. 이 답변에 큰 도움을 주셔서 감사합니다.
Jake Westfall

1
예,이 논문을 인용하면 : pdfs.semanticscholar.org/bf83/… : "안정적인 알고리즘은 학습 세트에서 하나의 요소를 대체해도 결과가 크게 변하지 않는 특성을 가지고 있습니다. 결과적으로 경험적 오류는 확률 변수는 작은 변화가 있어야 자신의 경험적 오류 가까이 자신의 일반화의 오류로 안정 알고리즘은 다음 좋은 후보가 될 수 있습니다..
자비에 BOURRET Sicotte

2

나는 당신이 인용 한 단락의 맥락에서 내 대답을 줄 것입니다.

K = N 인 경우, 교차 검증 추정기는 실제 (예상) 예측 오차에 대해 거의 편향되지 않지만 N "트레이닝 세트"가 서로 유사하기 때문에 분산이 높을 수 있습니다.

실제 (예상) 예측 오류의 CV 추정기는 훈련 세트 예제를 기반으로하므로 여기에서 올바르게 이해하면 훈련 세트 샘플에 대한 기대가 있습니다.

따라서 "고 분산"에 관한이 단락은 예상 오차와 CV (여기서는 평균 오버 폴드)에 의해 추정 된 오차 사이에 "높은"차이가 있다는 것입니다.

이는 모델이 특정 트레이닝 세트에 적합하고 모든 트레이닝 폴드가 Leave-One-Out 내에서 매우 유사하기 때문에 의미가 있습니다. 그러나 훈련 폴드는 CV 라운드 내에서 매우 유사하지만 훈련 샘플을 CV로 교체하면 추정치가 크게 다를 수 있습니다. k- 폴드 CV에서는 트레이닝 폴드를 "다양 화"하기 때문에 평균적인 영향을 미치게되며 k- 폴드에서는 추정치가 덜 변합니다.

다시 말해서, Leave-One-Out CV 추정기는 기본적으로 홀드 아웃 방법과 거의 같지 않습니다. 접기를 회전시키지 않고 오류 추정치를 하나의 검증 세트에 기반을 두었습니다. 다시 한 번 훈련 예제에 비해 k-fold의 추정치에 비해 편차가 클 것입니다. 여기서 k-fold 라운드 내에서 다소 다양한 모델을 훈련하여 폴드에 대한 평균을 계산합니다 (즉, 훈련 세트를 바꾸면 k-fold를 통한 오류는 그다지 변하지 않을 것입니다).

편집하다:

교차 검증 된 인터넷과 일반적으로 인터넷에서 여기에 대한 답변을 읽을 때, 우리가 어떤 견적을 말하는지에 대해 약간의 혼동이있는 것 같습니다. 일부 사람들은 k- 폴드 CV 추정기의 높은 분산 대 높은 분산 (주요 분산 성분을 갖는 손실에 대한 ML 토크 포함) 모델을 참조한다고 생각합니다. 또 다른 답은 "k-fold has high variance"라고 말했을 때 폴드에 대한 샘플 분산으로 분산을 나타냅니다. 따라서 두 경우 모두 답변이 다르기 때문에 구체적으로 제안하는 것이 좋습니다.


분산을 논의 할 때 여기에 정의 된 훈련 세트 D에 대한 CV 추정기의 분산에 대해 이야기하고 있다고 가정합니다 : stats.stackexchange.com/questions/365224/… 그리고 여기 : stats.stackexchange.com/questions/325123/… . Yves Grandvalet과 Bengio는 2004 년 논문에서 CV가 예상되는 예측 오차를 추정한다고 주장합니다. 당신은 여기에 자신의 응답을 볼 수 stats.stackexchange.com/a/358138/192854
자비에 BOURRET Sicotte

다양한 분산 정의를 기반으로 답을 정한다면 공식적인 정의와 공식을 추가하는 것이 도움이 될 것입니다. 아마도 내가 아니라 .. 나의 대답을 사용해야한다
자비에 BOURRET Sicotte

예, 문헌을 약간 검토해야하며 답에 수식을 추가해야합니다. 통계 학습의 요소 (Elements of Statistical Learning)의 인용문은 여전히 ​​나에게 직관적입니다 .LOOCV는 모델이 분산에 대한 평균이기 때문에 분산이 높은 경우 분산이 높습니다. 모델의 바이어스가 높으면 LOOCV 및 모든 k- 폴드 추정기의 편차가 낮아야합니다 (바이어스와 상관 없음). 그러나 단락의 요점은 문제였습니다. 대부분의 경우 k-fold와 비교하여

따옴표는 적어도 일반화로 틀린 것으로 나타났습니다. 내 답변에 인용 된 여러 논문 참조
Xavier Bourret Sicotte

1

우리는 전에 이것을 겪어 왔으며, 당신은 죽은 말에 대해 너무 수학적입니다. CV에 대한 Ron Kohavi의 (Stanford-Univ) 고전 논문 및 바이어스 편차 딜레마를 참조하십시오 . 이 내용을 다 읽었 으면 LOOCV를 수행하고 싶지 않으며 10 배 CV 및 / 또는 부트 스트랩 바이어스 CV에 끌릴 수 있습니다.

또한 LOOCV가 계산 비용이 너무 많이 드는 큰 데이터 세트에 대해서도 고려해야합니다. 현재 LOOCV는 실제로 대부분의 그룹 워크 플로 / 파이프 라인에서 옵션이 아닙니다.

이 "안정성"조건은 정확히 무엇입니까? 모델 / 알고리즘, 데이터 세트 또는 둘 다에 어느 정도 적용됩니까?

케이=케이=케이=

분류 자로서의 LREG는 데이터를 선형으로 분리 할 수있을 때 작동하지만, 많은 데이터 세트가 선형으로 분리 할 수 ​​없기 때문에 평균적으로 바이어스가 너무 높습니다.

이 안정성에 대해 직관적으로 생각할 수있는 방법이 있습니까?

안정성에 대한 일반적인 규칙이 없기 때문에 내 견해로는 아닙니다.

안정적이고 불안정한 모델 / 알고리즘 또는 데이터 세트의 다른 예는 무엇입니까?

무한히 많은 응답을 구할 수 있으므로 도움이되지 않기 때문에 개방적이고 너무 광범위합니다.

케이

케이케이

케이케이


귀하의 의견에 감사드립니다, 그러나 이것은 질문에 대답하지 않는 것 같습니다.
Jake Westfall

OP에 대한 추가 답변을 참조하십시오.
JoleT

3
이 기사 만 훑어 보았지만 실제로는 매우 흔들리는 땅 에서 약 10 배가 최고라고 주장 합니다. 나는 그것이 7k 인용을 가지고 있다고 믿을 수 없다. 그러나 10 배 이상의 이점이 있다고 믿을만한 충분한 이유가 있습니다. 내가 기회가 있으면 더 철저하게 읽을 것입니다.
Cliff AB
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.