데이터 확대 및 기차 검증 분할을 수행하는 방법은 무엇입니까?


14

기계 학습을 사용하여 이미지 분류를하고 있습니다.

교육 데이터 (이미지)가 있고 데이터를 교육 및 유효성 검사 세트로 분할한다고 가정합니다. 또한 임의 회전 및 노이즈 주입을 통해 데이터를 확대 (원본 이미지에서 새 이미지 생성)하고 싶습니다. 기능 보강은 오프라인으로 수행됩니다.

데이터 기능 보강을 수행하는 올바른 방법은 무엇입니까?

  1. 먼저 데이터를 교육 및 유효성 검사 세트로 분할 한 다음 교육 및 유효성 검사 세트 모두에서 데이터 확대를 수행하십시오.

  2. 먼저 데이터를 학습 및 유효성 검사 세트로 분할 한 다음 학습 세트에서만 데이터 기능 보강을 수행하십시오.

  3. 먼저 데이터에 대한 데이터 기능 보강을 수행 한 다음 데이터를 교육 및 유효성 검사 세트로 분할하십시오.


1
"데이터 기능 보강"은 하나 이상의 의미를 갖습니다. 귀하의 질문을 명확하게 설명하거나 예를 들어 설명하는 것이 도움이됩니다.
Scortchi-Monica Monica 복원

TTA를 수행하려는 경우 테스트 세트와 관련하여 유효성 검증 세트에 기능 보강을 적용해야합니다.
abby yorker

답변:


18

먼저 데이터를 학습 및 유효성 검사 세트로 분할 한 다음 학습 세트에서 데이터 기능 보강을 수행하십시오.

검증 세트를 사용하여 방법이 실제 데이터에서 작동하는 방식을 추정하려고 시도하므로 실제 데이터 만 포함해야합니다. 기능 보강 된 데이터를 추가해도 유효성 검사의 정확성은 향상되지 않습니다. 분석법이 데이터 기능 보강에 얼마나 잘 반응하고 최악의 경우 유효성 검사 결과와 해석 가능성을 망칠 수 있는지에 대해 가장 잘 설명합니다.


나는 당신의 대답에 뭔가 궁금합니다. CNN 교육을 중단하는 기준이 유효성 검증 손실을 줄이면 유효성 검증 데이터의 데이터 기능 보강이 좋은 선택이라고 생각하십니까?
mad

1
아니요, 유효성 검사 데이터를 확장하면 더 이상 보이지 않는 새로운 데이터의 정확도에 대한 유효성 검사가 더 이상 유효하지 않기 때문에 여전히 유효성 검사 결과 및 해석 가능성을 떨어 뜨릴 것이라고 생각합니다.
burk

그래서 우리는 유효성 검사 및 테스트 데이터에 데이터 보강을 전혀 적용 할 필요가 없습니까?
Aadnan Farooq A 2018

@AadnanFarooqA 아니요. 일반적으로 예측에 모델을 사용할 때 보이지 않는 데이터에 대해 수행하려는 테스트 및 유효성 검사 데이터에 대해 동일한 작업을 수행해야합니다.
burk

1
@AadnanFarooqA 일반적으로 분할 후 교육 데이터에 기능 보강을 적용하면됩니다.
burk

4

누수가 나므로 절대 3을하지 마십시오. 예를 들어, 확대가 왼쪽으로 1 픽셀 이동한다고 가정합니다. 기능 보강을 인식하지 못하는 경우 훈련 및 유효성 검사에서 매우 유사한 데이터 샘플을 얻을 수 있습니다.


0

데이터 보강은 분석중인 기존 데이터에 외부 데이터 / 정보를 추가하는 것을 의미합니다.

따라서 전체 보강 된 데이터가 머신 러닝에 사용되므로 다음 프로세스가 더 적합합니다.

데이터 기능 보강-> 데이터 분할


답장을 보내 주셔서 감사합니다. 원래 샘플과 매우 유사한 샘플과 증강 샘플이 서로 다른 세트로 퍼져있는 것이 괜찮습니까?
yangjie

기존 데이터를 훈련 세트로, 증강 데이터를 검증 세트로 의미합니까? 그런 다음 NO
Dawny33

분할은 임의적이므로 데이터 확대를 수행 한 다음 데이터를 분할하면 일부 기존 데이터 (모두는 아님)가 학습 세트로 분할되고 확장 된 데이터는 유효성 검사 세트로 이동합니다.
yangjie

기능 보강이란 추가를 의미합니까? 증강 데이터는 모든 지점에서 현재 데이터를 지원하는 데이터입니다. 분할은 무작위 경우에 따라서, 그 분할은 기존 데이터의로, 두 세트에서 augmente 같은 양의 데이터를 초래
Dawny33

이것에 대한 종이에 대한 참조가 있습니까?
Aadnan Farooq A 2018
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.