많은 기계 학습 응용 프로그램에서 소위 데이터 보강 방법을 사용하면 더 나은 모델을 만들 수 있습니다. 예를 들어, 고양이와 강아지 의 이미지 훈련 세트를 가정하십시오 . 회전, 미러링, 대비 조정 등을 통해 원래 이미지에서 추가 이미지를 생성 할 수 있습니다.
이미지의 경우, 데이터 확대는 비교적 간단합니다. 그러나 예를 들어 샘플로 구성된 트레이닝 세트 와 서로 다른 것을 나타내는 수백 개의 연속 변수가 있다고 가정 합니다. 데이터 확대는 더 이상 직관적이지 않습니다. 그러한 경우 어떻게 할 수 있습니까?
2
PCA 또는 AE와 같은 일부 방법은 여전히 데이터 기능 보강에 직관적이라고 생각합니다. 첫 번째 방법은 PCA를 적용하고 첫 번째 고유 값을 유지하고 kn 고유 값을 구분, 가우스 등에서 임의로 설정합니다. 다른 방법은 자동 인코더를 사용하여 데이터 자체를 구성합니다. 숨겨진 단위의 수가 가시적 단위에 가까우면 구성 자체가 꽤 좋습니다. 재구성 된 데이터는 데이터의 보강 된 부분으로 사용될 수 있습니다.
—
yasin.yazici 12
@ 음, 이것이 당신의 질문에 대답 했습니까?
—
shf8888
안녕하십니까? pca를 사용하여 데이터 확대에 대한 비트를 설명 할 수 있습니까? 내가 데이터를 가지고 있다고 가정 과 50이 기능 치수 인. 이제 PCA를 수행하고 처음 30 개의 고유 벡터가 충분 하다는 것을 알았습니다 . 다음 20 개의 고유 벡터 에서 무엇을해야 하며 무작위성을 어떻게 도입해야합니까?
—
roni
참조 내 석사 논문, 80 페이지를 이미지 데이터 증가의 techinques의 개요.
—
Martin Thoma 17시
데이터 확대는 예를 들어 이미지에 매우 적합합니다. 객체의 회전 된 이미지는 여전히 객체의 이미지이므로 모델을 노출해야하지만 데이터 세트에 반드시 이러한 이미지가있는 것은 아닙니다. 이 경우 데이터 확대 / 축소의 필요성은 무엇입니까? 당신이 이것을해야한다는 것은 분명하지 않습니다.
—
gung-복직 모니카