언제 교차 검증을 사용하지 않습니까?


10

사이트를 읽으면서 대부분의 답변은 기계 학습 알고리즘에서 교차 유효성 검사를 수행해야한다고 제안합니다. 그러나 "머신 러닝 이해하기"라는 책을 읽으면서 때때로 교차 검증을 사용하지 않는 것이 더 나은 운동이 있다는 것을 알았습니다. 정말 혼란 스러워요. 전체 데이터에 대한 훈련 알고리즘이 교차 검증보다 낫습니까? 실제 데이터 세트에서 발생합니까?

를 k 가정 클래스로 하자 . 당신은 주어진 가정하자 IID 예를 훈련하고 클래스 배우고 싶은 . 두 가지 대안을 고려하십시오.H1,...,HkmH=i=1kHi

  1. ERM 규칙을 사용하여 예제 에서 배우기Hm

  2. m 예제 를 일부 대해 크기 훈련 과 유효성 검사 세트 크기 으로 나눕니다 . 그런 다음 유효성 검사를 사용하여 모델 선택 방법을 적용하십시오. 각 클래스 양성, 인터넷 RST 즉 온 에 대하여 ERM 규칙을 사용하여 훈련 예 하고하자 생성 가정 할 . 둘째, 유효성 검사 예제에서 유한 클래스 { }에 대해 ERM 규칙을 적용하십시오 .(1α)mαmα(0,1)Hi(1α)mHih^1,,h^kh^1,,h^kαm

첫 번째 방법이 두 번째 방법보다 낫고 그 반대의 경우도있는 시나리오를 설명하십시오.

Quastion의 이미지 .


1
흥미로운 연습이지만 레이블에 동의하지 않습니다. 교차 검증이 완벽하게 작동하고 있다고 생각합니다. 접선으로, 이미지를 첨부하는 대신 운동을 입력하고 인용하면 실제로 선호됩니다. 시각 장애가있는 사용자는 이미지에 액세스 할 수 없습니다.
Matthew Drury

교차 유효성 검사 사용의 한 가지 단점은 한 번의 교차 유효성 검사를 생략하는 경우와 같이 과적 합 될 수 있습니다. 기본적으로 교차 검증 기술을 사용하여 테스트 데이터 세트가 아닌 검증 데이터 세트에서 모델의 매개 변수를 조정합니다. 그러나 때로는이 튜닝이 너무 많이 진행되어 분류자가 테스트 세트에서 테스트 될 때 오 버핏이 발생할 수 있습니다.
Upendra Pratap Singh

1
여기서 "패리티"란 무엇을 의미합니까?
shadowtalker

@shadowtalker 나는 그것이 합산 모듈로 2를 의미한다고 생각합니다.
SMA.D

(반복 된) 교차 유효성 검사와 부트 스트랩을 구별합니까?
usεr11852

답변:


11

택배 메시지 :


불행히도, 인용 한 텍스트는 접근법 1과 2 사이에서 두 가지를 바꿉니다.

  • 접근법 2는 교차 검증 데이터 중심 모델 선택 / 조정 / 최적화를 수행합니다.
  • 접근법 1은 교차 검증이나 데이터 중심 모델 선택 / 조정 / 최적화를 사용하지 않습니다.
  • 데이터 중심의 모델 선택 / 튜닝 / 최적화없이 접근 3 교차 검증은 여기에서 논의 된 맥락에서 완벽하게 실현 가능합니다 (amd IMHO가 더 많은 통찰력을 이끌어 낼 것임)
  • 접근법 4, 교차 검증은 없지만 데이터 중심 모델 선택 / 조정 / 최적화도 가능하지만 구성이 더 복잡합니다.

IMHO, 교차 검증 및 데이터 중심 최적화는 모델링 전략을 수립 할 때 완전히 다른 두 가지 결정입니다. 유일한 연결은 당신이 당신의 최적화를위한 기능을 대상으로 교차 검증 추정치를 사용할 수 있다는 것입니다. 그러나 사용할 준비가 된 다른 대상 기능이 있으며 교차 검증 추정의 다른 용도가 있습니다 (중요하게는 모델 검증, 일명 검증 또는 테스트에 사용할 수 있음)

불행하게도 머신 러닝 용어는 IMHO로 현재 허위 연결 / 원인 / 의존성을 암시합니다.

  • 접근 방식 3 (최적화가 아니라 모델 성능 측정에 대한 교차 검증)을 검색하면 다음과 같은 문맥에서 전체 데이터 세트에 대한 "결정"교차 검증과 훈련이 잘못된 이분법이됩니다. 분류기 성능을 측정하기 위해 교차 검증 성능 지수는 전체 데이터 세트에 대해 훈련 된 모델의 추정치로 사용됩니다. 즉 접근법 3에는 접근법 1이 포함됩니다.

  • 이제 두 번째 결정 인 데이터 중심 모델 최적화 여부를 살펴 보겠습니다. 이것이 바로 여기서 중요한 IMHO입니다. 그리고 데이터 중심 모델 최적화를 수행 하지 않는 것이 더 나은 실제 상황 이 있습니다. 데이터 중심 모델 최적화는 비용이 발생합니다. 이를 다음과 같이 생각할 수 있습니다. 데이터 세트의 정보는 뿐만 아니라p모델의 매개 변수 / 계수, 그러나 최적화는 소위 하이퍼 파라미터라는 추가 매개 변수를 추정하는 것입니다. 모델 피팅 및 최적화 / 튜닝 프로세스를 모델 매개 변수에 대한 검색으로 설명하면이 하이퍼 파라미터 최적화는 훨씬 더 큰 검색 공간이 고려됨을 의미합니다. 다시 말해, 접근법 1 (및 3)에서는 이러한 하이퍼 파라미터를 지정하여 검색 공간을 제한합니다. 실제 데이터 세트는 제한된 검색 공간 내에 들어갈 수있을만큼 충분히 크지 만 (충분한 정보를 포함 할 수 있지만) 접근 방법 2 (및 4)의 더 큰 검색 공간에서 모든 매개 변수를 충분히 수정하기에는 충분하지 않습니다.

실제로 필자의 분야에서는 데이터 중심 최적화를 생각하기에 너무 작은 데이터 세트를 처리해야하는 경우가 종종 있습니다. 대신 수행 할 작업 : 데이터 및 데이터 생성 프로세스에 대한 도메인 지식을 사용하여 데이터 및 응용 프로그램의 물리적 특성에 맞는 모델을 결정합니다. 그리고이 내에서도 여전히 모델 복잡성을 제한해야합니다.


좋은 대답입니다. 어떻게 든이 스레드에 기여하기를 바랍니다. 명백한 +1
usεr11852

유익하고 유용한 답변에 감사드립니다. 당신의 대답에서 배운 것은 유효성 검사가 아니라 모델 선택 때문에 작은 데이터 세트가있을 때 접근법 2를 선택할 수 있다는 것입니다. 제가 맞습니까? 소규모 데이터 세트에 모델 선택을 사용하면 어떻게해서 적합하지 않습니까?
SMA.D December

또 다른 질문은 연습에서 가설 클래스의 크기가 접근법 1과 2에서 동일하다는 것입니다.이 경우 접근법 2에 대한 검색 공간이 어떻게 더 커 집니까?
SMA.D

글쎄, 1이 아닌 2에서 선택이 있으면 2의 검색 공간이 더 큽니다. 2의 검색 공간이 더 크지 않다면, 접근 2에서는 실제로 선택할 것이 없습니다. 접근 2의 의미에 대한 나의 대답과 해석은 "검증을 사용한 모델 선택"이라는 용어에 의해 시작됩니다. 문맥이 여전히 해당 교차점 앞에있는 "교차 유효성 검증 실패시"운동 중 하나 인 경우,이 책은 위의 접근법 3이라고 부르는 것을 의미 할 수 있습니다. 즉, 모델 선택이 포함되지 않습니다. 그러나이 경우 모델 선택이라는 단어가 실제로 없어야합니다. 나는이 .. 가능성을 판단 할 수
SX에 불만 cbeleites

...이 책에서 모델 선택에 대한 내용이나 ERM 규칙이 무엇인지 알지 못합니다 (어휘에서는 ERM이 엔터프라이즈 위험 관리로 확장됩니다 ...). 그러나 내 대답은 모델링 알고리즘에 관계없이 유지됩니다.
SX에 불만족 cbeleites
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.