심층 컨볼 루션 신경망에 유용한 데이터 확대 기술은 무엇입니까?


13

배경 : 저는 최근 Geoffrey Hinton의 훌륭한 연설을보고 컨볼 루션 신경망을 훈련 할 때 데이터 보강의 중요성에 대해 더 깊이 이해했습니다 .

그는 현재의 컨볼 루션 신경망은 테스트 대상 물체의 참조 프레임을 일반화 할 수 없으므로, 네트워크가 물체의 거울상이 동일하다는 것을 네트워크가 진정으로 이해하기 어렵게 만든다고 설명했다.

이 문제를 해결하기 위해 일부 연구가 진행되었습니다. 많은 예 중 하나가 여기있다 . 이것이 오늘날 컨볼 루션 신경망을 훈련시킬 때 데이터 확대가 얼마나 중요한지를 확립하는 데 도움이된다고 생각합니다.

데이터 확대 기술은 서로에 대해 거의 벤치마킹하지 않습니다. 그 후:

질문 :

  • 실무자들이 탁월한 성능을보고 한 논문은 무엇입니까?

  • 유용한 데이터 보강 기술에는 어떤 것이 있습니까?


안녕하세요 @rhadar, 뉴스가 있습니까? 감사합니다 :)
nullgeppetto

답변:


1

비서. 1 : 데이터 보강 만족스러운 성능을 달성하려면 딥 네트워크가 수많은 훈련 이미지에 대해 훈련되어야하므로 원본 이미지 데이터 세트에 제한된 훈련 이미지가 포함 된 경우 성능을 향상시키기 위해 데이터 보강을 수행하는 것이 좋습니다. 또한 데이터 보강은 딥 네트워크를 교육 할 때해야 할 일이됩니다.

  • 널리 사용되는 수평 뒤집기, 임의 자르기 및 색상 지 터링과 같은 여러 가지 방법으로 데이터 확대를 수행 할 수 있습니다. 또한 회전과 임의 스케일링을 동시에 수행하는
    등 여러 가지 다른 처리의 조합을 시도 할 수
    있습니다. 또한 모든 픽셀의
    채도 및 값 (
    HSV 색 공간 의 S 및 V 구성 요소 )을 0.25와 4 사이의 전력 (
    패치 내의 모든 픽셀에 동일 )으로 높이고이 값에
    0.7 사이 의 계수를 곱할 수 있습니다 1.4, -0.1과 0.1 사이의 값을 더하십시오.
    또한
    이미지 / 패치에서 모든 픽셀 의 색조 ( HSV의 H 구성 요소)에 [-0.1, 0.1] 사이의 값을 추가 할 수 있습니다 .

  • Krizhevsky et al. 1 2012 년 유명한 Alex-Net을 훈련 할 때 멋진 PCA를 제안했습니다. Fancy PCA
    는 훈련 이미지에서 RGB 채널 의 강도를 변경합니다 . 실제로 교육 이미지 전체에서 RGB 픽셀 값 세트에 대해 PCA를 먼저 수행 할 수 있습니다. 그런
    다음 각 훈련 이미지에
    대해 각 RGB 이미지 픽셀에 다음 수량을 추가하십시오 (예 : I_ {xy} = [I_ {xy} ^ R, I_ {xy} ^ G, I_ {xy} ^ B] ^ T ) :
    [bf {p} _1, bf {p} _2, bf {p} _3] [alpha_1 lambda_1, alpha_2 lambda_2, alpha_3
    lambda_3] ^ T 여기서 bf {p} _i 및 lambda_i는 i 번째 고유 벡터와
    고유 값입니다. RGB 픽셀 값의 3 배 3 공분산 행렬의
    각각이고, alpha_i는 가우스에서 추출한 랜덤 변수입니다.
    평균 제로 및 표준 편차 0.1. 각
    alpha_i는
    해당 이미지가 다시 훈련에 사용될 때까지 특정 훈련 이미지 의 모든 픽셀에 대해 한 번만 그려집니다 . 즉
    , 모델이 동일한 훈련 이미지를 다시
    만나면 데이터 확대를 위해 다른 alpha_i 가 임의로 생성 됩니다 . 에서 1 , 그들은
    그 "약 중요한 캡처 할 수있는 멋진 PCA 주장
    자연스러운 이미지의 속성, 즉, 그 객체 ID가 강도와 조명의 색상 변화에 불변". 받는 사람
    분류 성능이 방식은 최고 1 에러율을 감소
    ImageNet 2012 년 대회에 1 % 이상.

(출처 : 딥 뉴럴 네트워크의 팁 / 트릭을 알아야 함 (Xiu-Shen Wei))

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.