일반 데이터 세트를위한 데이터 확대 기술?


21

많은 기계 학습 응용 프로그램에서 소위 데이터 보강 방법을 사용하면 더 나은 모델을 만들 수 있습니다. 예를 들어, 고양이와 강아지 의 이미지 훈련 세트를 가정하십시오 . 회전, 미러링, 대비 조정 등을 통해 원래 이미지에서 추가 이미지를 생성 할 수 있습니다.100

이미지의 경우, 데이터 확대는 비교적 간단합니다. 그러나 예를 들어 샘플로 구성된 트레이닝 세트 와 서로 다른 것을 나타내는 수백 개의 연속 변수가 있다고 가정 합니다. 데이터 확대는 더 이상 직관적이지 않습니다. 그러한 경우 어떻게 할 수 있습니까?100


2
PCA 또는 AE와 같은 일부 방법은 여전히 ​​데이터 기능 보강에 직관적이라고 생각합니다. 첫 번째 방법은 PCA를 적용하고 첫 번째 고유 값을 유지하고 kn 고유 값을 구분, 가우스 등에서 임의로 설정합니다. 다른 방법은 자동 인코더를 사용하여 데이터 자체를 구성합니다. 숨겨진 단위의 수가 가시적 단위에 가까우면 구성 자체가 꽤 좋습니다. 재구성 된 데이터는 데이터의 보강 된 부분으로 사용될 수 있습니다.
yasin.yazici 12

@ 음, 이것이 당신의 질문에 대답 했습니까?
shf8888

안녕하십니까? pca를 사용하여 데이터 확대에 대한 비트를 설명 할 수 있습니까? 내가 데이터를 가지고 있다고 가정 50이 기능 치수 인. 이제 PCA를 수행하고 처음 30 개의 고유 벡터가 충분 하다는 것을 알았습니다 . 다음 20 개의 고유 벡터 에서 무엇을해야 하며 무작위성을 어떻게 도입해야합니까? 100엑스50503020
roni

참조 내 석사 논문, 80 페이지를 이미지 데이터 증가의 techinques의 개요.
Martin Thoma 17시

데이터 확대는 예를 들어 이미지에 매우 적합합니다. 객체의 회전 된 이미지는 여전히 객체의 이미지이므로 모델을 노출해야하지만 데이터 세트에 반드시 이러한 이미지가있는 것은 아닙니다. 이 경우 데이터 확대 / 축소의 필요성은 무엇입니까? 당신이 이것을해야한다는 것은 분명하지 않습니다.
gung-복직 모니카

답변:


17

이 질문은 지형지 물 구성과 관련하여 관찰 한 내용과 관련하여 이미 구축 한 + + 지형지 물을 처리하는 것으로 이해합니다 ( N << P).

기능 구성

@ yasin.yazici의 의견을 확장하면 데이터를 보강하는 몇 가지 방법은 다음과 같습니다.

  • PCA
  • 자동 인코딩
  • 로그, 거듭 제곱 등과 같은 변환
  • 연속 변수를 이산 범주로 비닝 (즉, 연속 변수는 평균보다 1 SD 높고 평균 아래 1입니다)
  • 복합 변수 (예 : 여기 참조 )

나는 더 많은 것이 빠져 있다고 확신합니다.

기능 선택 / 차원 축소

PCA와 같은 기술을 사용하여 차원을 줄일 수 있습니다 (PCA 변수로 데이터를 보강 한 후에는 아님). 또는 올가미, 임의 포리스트 등의 기능 선택을 수행하는 알고리즘을 사용할 수 있습니다.


2
피처 구성에 자동 인코딩을 사용하는 방법을 알려주시겠습니까?
roni

1
@roni 자동 인코더를 성공적으로 훈련하면 더 높은 수준의 추상화에서 데이터를 어느 정도 표현할 수 있습니다. 분류기에 사용할 수있는 더 유용한 표현이 있기를 바랍니다.
크리스 앤더슨

0

레이블이없는 숫자 데이터를 늘리려는 비슷한 문제에 직면했습니다. 다음과 같은 방법으로 데이터를 보강했습니다. (크기가 100 * 10 인 데이터 집합이 있다고 가정합니다.)

  1. {0,1}에서 값을 무작위로 샘플링하여 목록을 작성하여 0의 수가 1의 수보다 작습니다.이 경우 0의 비율은 20 %입니다. 따라서 길이가 100 인 0과 1의 목록이 있습니다.
  2. 이 목록을 종속 변수로 사용하고 더 많은 데이터 포인트를 생성하기 위해 스모 트로 전달했습니다. 여기서 smote는 생성 된 목록에서 0에 해당하는 데이터 포인트를 연결하는 가장자리에 포인트를 생성합니다.
  3. 필요한 크기의 데이터 세트가 확보 될 때까지이 프로세스를 반복하십시오.

1
여러 스레드에 동일한 답변을 게시하지 마십시오. 다른 곳에 게시 한 것과 동일한 답변이 다른 질문에 완전히 답변했다고 생각되면 해당 질문을 첫 번째 질문의 복제본으로 표시하십시오.
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.