교차 검증을 사용할 때 하나의 표준 오류 규칙에 대한 경험적 근거


38

parsimony에 찬성하여 하나의 표준 오류 규칙의 사용을 정당화하는 경험적 연구가 있습니까? 분명히 그것은 데이터의 데이터 생성 프로세스에 달려 있지만, 대량의 데이터 세트를 분석하는 것은 매우 흥미로운 읽기 일 것입니다.


"한 가지 표준 오류 규칙"은 교차 유효성 검사를 통해 (또는 일반적으로 임의 추출 기반 절차를 통해) 모델을 선택할 때 적용됩니다.

복잡성 매개 변수 의해 모델이 색인화되어 있다고 가정 하면 , 는 때 보다 "더 복잡합니다" . 교차 검증과 같은 임의의 랜덤 화 프로세스에 의해 모델 의 품질을 평가한다고 가정하자 . 하자 의 "평균"품질 나타내는 예를 들어, 많은 교차 유효성 검사 실행에 걸쳐 평균 밖으로의 가방 예측 오류입니다. 이 수량 을 최소화 하고 싶습니다 . τ R M τ M τ τ > τ M q ( M ) Mττ아르 자형ττ'τ>τ'()

그러나 Google의 품질 측정은 일부 임의 추출 절차에서 비롯되므로 변동성이 있습니다. 은 무작위 배정 실행에 걸친 의 품질의 표준 오차 , 예를 들어 교차-검증 실행에 대한 수하물 외부 예측 오차의 표준 편차를 나타낸다고 하자 .M M에스()

그런 다음 모델을 선택합니다 . 여기서 는 가장 작은 입니다. τ ττττ

(τ)(τ')+에스(τ'),

여기서 는 (평균) 최상의 모델 합니다. Q ( M τ ' ) = τ Q ( M τ )τ'(τ')=τ(τ)

즉, 우리 는 무작위 화 과정에서 가장 좋은 모델 M _ {\ tau '} 보다 하나 이상의 표준 오류보다 더 단순한 가장 단순한 모델 ( 가장 작은 τ )을 선택 합니다.τ'

이 "하나의 표준 오류 규칙"은 다음과 같은 장소에서 언급되었지만 명시적인 근거는 없습니다.


7
"하나의 표준 오류 규칙"으로 무엇을 말하는지 알고 있지만 많은 사람들은 그렇지 않을 것이라고 생각하지만,이 질문에 관심이 있다면 그렇게 할 것입니다. 설명 문장을 몇 개 추가하기 위해 편집 할 수 있습니까? (그냥 제안 ...)
jbowman

2
@ jbowman : 방금 하나의 표준 오류 규칙을 설명하기 위해 질문을 편집했는데, 이것에 꽤 관심이 있기 때문에 충돌합니다 ... 아래 답변은 실제로 내 질문에 대답하지 않습니다. 누구든지 자유롭게 개선하십시오.
S. Kolassa-복원 모니카


2
종이에 좋은 주제가 될 것입니다. 합리적인 공학 휴리스틱처럼 보이지만 모든 SEH가 실제로 작동하는 것은 아니므로 많은 수의 데이터 세트에 대한 연구가 흥미로울 것입니다. 캘리브레이션이 잘되지 않았 음을 의미하는 다중 가설 테스트 문제가 있는지 궁금하지만, 이런 종류의 오버 튜닝이 발생할 가능성이 높은 데이터 세트에서 아무것도하지 않는 것보다 낫다고 생각했을 것입니다. 문제. 문제는 문제가 아닌 데이터 세트에서 성능이 훨씬 나빠지는 것입니다.
Dikran Marsupial

답변:


12

다음은 경험적 연구 가 아니기 때문에 처음에 답변이 아닌 의견으로 게시하고 싶었지만 실제로 의견이 너무 길다는 것이 밝혀졌습니다.

Cawley & Talbot ( J of Machine Learning Research , 2010) 은 모델 선택 단계에서의 과적 합과 모델 피팅 단계에서의 과적 합의 차이에 주목합니다.

두 번째 종류의 과적 합은 대부분의 사람들에게 친숙한 것입니다. 특정 모델을 고려할 때 과적 합 을 원치 않습니다. 즉, 일반적으로 보유한 단일 데이터 세트의 특정 특성에 너무 가깝게 맞추고 싶지 않습니다. ( 여기서는 편차의 큰 감소에 대해 약간의 바이어스 증가를 거래함으로써 수축 / 정규화가 도움이 될 수 있습니다. )

그러나 Cawley & Talbot은 모델 선택 단계에서도 과도하게 적합 할 수 있다고 주장합니다. 결국, 우리는 여전히 단일 데이터 세트 만 가지고 있으며, 다양한 복잡성 모델을 결정하고 있습니다. 모델을 선택하기 위해 각 후보 모델을 평가하려면 일반적으로 정규화를 사용하거나 사용하지 않고 해당 모델을 피팅 해야합니다. 그러나이 평가 자체는 우리가 가진 특정 데이터 세트에 의존하기 때문에 다시 임의 변수입니다. 따라서 "최적의"모델을 선택하면 그 자체가 편견 보일 수 있으며 모집단에서 가져올 수있는 모든 데이터 세트의 특정 데이터 세트에 따라 편차 나타 납니다 .

따라서 Cawley & Talbot은이 평가에서 가장 잘 수행되는 모델을 선택하는 것이 편향이 적은 선택 규칙 일 수 있지만 편차가 클 수 있다고 주장합니다. 즉, 동일한 데이터 생성 프로세스 (DGP)와 다른 훈련 데이터 세트가 주어지면이 규칙은 매우 다른 모델을 선택할 수 있으며 동일한 DGP를 따르는 새로운 데이터 세트를 예측하는 데 적합합니다. 이러한 관점에서, 모델 선택 절차의 분산을 제한하지만 더 간단한 모델에 대해 작은 편향이 발생하면 샘플 외부 오차가 더 작을 수 있습니다.

Cawley & Talbot은 이것을 하나의 표준 오류 규칙에 명시 적으로 연결하지 않으며 "모델 선택 정규화"섹션이 매우 짧습니다. 그러나 하나의 표준 오류 규칙은이 정규화를 정확하게 수행하고 모델 선택의 편차와 백의 교차 검증 오류의 차이 간의 관계를 고려합니다.

예를 들어, 아래는 Hastie, Tibshirani & Wainwright (2015)의 희소성 통계 학습 에서 나온 그림 2.3입니다 . 모델 선택 편차는 최소 검은 선의 볼록 도로 표시됩니다. 여기서 최소값은 그다지 뚜렷하지 않으며 선이 다소 약하게 볼 수 있으므로 모델 선택이 높은 분산으로 다소 불확실 할 수 있습니다. 그리고 OOB CV 오차 추정치의 분산은 물론 표준 오차를 나타내는 다수의 연한 청색 선에 의해 주어진다.

하나의 표준 오류 규칙


1
하하, 이 검색을 시도하십시오 (또는 쿼리에 하이픈을 넣으십시오).
amoeba는 Reinstate Monica가

2
정규화 매개 변수가 하나만있는 경우 최적화 문제에 한 자유도가 있기 때문에 이러한 종류의 과적 합은 문제가되지 않는 경향이 있지만 많은 정규화 매개 변수가있는 경우 (예 : 신경망의 자동 관련성 결정) 그러면 매우 실질적인 결과가 될 수 있습니다. 하나의 sd 방법은 정규화 매개 변수를 과도하게 최적화하는 것을 피할 수있는 훌륭한 휴리스틱이지만 조금 더 정당화되는 것을 시도해 보는 것이 좋습니다 (1/2)
Dikran Marsupial

1
우리 (Mrs Marsupial과 I)가 조사한 두 가지 접근 방식은 분석적으로 통합 된 하이퍼 하이퍼 파라미터로 하이퍼 파라미터를 정규화하는 것입니다 ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) 또는 일부 하이퍼 파라미터를 파라미터로 변환하고 정규화 파라미터를 추가하는 비용을 들이지 않고 직접 데이터에 맞출 수 있습니다 (그러나 여전히 모델 선택의 자유도를 줄이므로 여전히 도움이됩니다) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial

1
부수적으로, 모델 선택의 과적 합은 모델 이 훈련 세트를 과적 합 하거나 과적 합 하게 만들 수있어 문제를 진단하기가 좀 더 까다로울 수 있습니다. 베이지안 관점에서 할 수있는 가장 좋은 방법은 최적화 하는 것이 아니라 이상을 소외시키는 것이지만 계산적으로 비싸거나 까다 롭거나 둘 다입니다. 1sd 규칙의 큰 장점은 그것이 스펙트럼의 다른 쪽 끝에 있고 엔지니어라는 것입니다. 나는 작동하는 간단한 것들을 좋아합니다; o) (3/2)λ
Dikran Marsupial

1
@DikranMarsupial이 언급 한 lambda-vs-marginalizing-over-lambda 주제 최적화에 대한 한 가지 스레드는 stats.stackexchange.com/questions/24799 입니다. 이 논의는 능선 회귀에 관한 것이며, 올가미 / 탄성 그물 / 등에는 한계가 아마도 까다 롭지 만 CV의 장점은 구현하기가 쉽다는 것입니다.
amoeba 말한다 Reinstate Monica

11

경험적 타당성을 위해이 Tibshirani 데이터 마이닝 강의 노트대한 12 페이지를 참조하십시오. 이 모델링 노트 에서는 CV 오류를 특정 모델링 문제에 대한 람다의 함수로 표시합니다. 제안은 특정 값 이하에서 모든 람다는 동일한 CV 오류를 발생 시키는 것으로 보입니다 . 능선 회귀와 달리 LASSO는 일반적으로 예측 정확도를 향상시키기 위해 사용되거나 주로 사용되지 않기 때문에 이치에 맞습니다. 주요 판매 포인트는 가장 관련성이 낮고 가치있는 예측 변수를 제거하여 모델을 더 단순하고 해석하기 쉽게 만드는 것입니다.

λ1


1
이 답변의 논리를 얻지 못했습니다. 예 : "리지 능형 회귀와 달리 LASSO는 예측 정확도를 향상시키는 메커니즘이 아닙니다"-왜 그렇습니까? L1과 L2가 다른 이유는 무엇입니까? 다음 문장에서는 L1이 낮은 람다에 대해 어떻게되는지 설명하지만 L2가 람다에 대해 똑같은 일이 발생한다고 생각합니다.
amoeba는 Reinstate Monica가

1
이것은 휴리스틱 설명이며 모든 예측 변수가 유익한 것처럼 일부 추정되지 않은 가정에 의존합니다. 수많은 노이즈 예측 변수와 유익한 정보가있는 경우 실제로 CV 메트릭을 명확하고 현저하게 최적화하는 람다 값이있을 수 있습니다. 정보 예측 변수의 하위 집합을 선택하는 것에 해당합니다. 람다가이 값 아래로 감소하면 노이즈가 발생하여 모델이 손상됩니다.
Paul

1
더 정규화-> 더 간단한 모델 인 parsimony에 대한 광범위한 정의를 사용하면 릿지와 올가미에 대해 논쟁이 똑같이 잘 작동한다고 생각합니다. 그러나 사용되는 여러 유형의 문제 및 데이터 세트로 인해 L2보다 L1에 대한 동기 부여가 더 쉽습니다. L1을 사용하는 사람들은 간단한 모델에 더 관심이 있으며 Tibshirani에 의해 나타나는 CV 오류 곡선에 직면 할 가능성이 높습니다.
Paul

1
고전적인 ESL 텍스트에서, p. 224 : "종종"일 표준 오류 "규칙이 교차 검증과 함께 사용되는데,이 경우 오류가 최고 모델의 오류보다 하나 이상의 표준 오류가 아닌 가장 가치있는 모델을 선택합니다." 주어진 예는 부분 집합 회귀이며 무릎 모양의 곡선 대 예측 변수의 수가 표시됩니다. 곡선은 올바른 예측 변수 수보다 평평하며 위에서 설명한 설명과 일치합니다. 엄격하거나 수학적인 타당성은 언급되지 않았습니다.
Paul

1
따라서 여기서 가장 큰 문제는 최소값이 잘못 결정되었지만 최소 한 시그마 내에서 가장 정규화 된 모델이 잘 정의되어 있다는 것입니다.
Paul

1

λλS^(λ)λ

λ(에스0에스^(λ))1에스0

이것은 Bühlmann과 van de Geer의 고차원 데이터 통계에 보고해야합니다 .

λ


1
좀 더 자세히 설명해 주시겠습니까? 이것은 매혹적인 것 같습니다.
DavidShor

1
λ

사실 필요한 것보다 많은 변수를 선택하면 충분하지 않은 변수를 선택하는 것보다 예측 성능이 떨어집니다. 이러한 이유로 CV는 더 많은 변수를 선택하는 경향이 있습니다.
Donbeo


이것은 내가 의미 한 책이다
Donbeo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.