이미지 형식 (png, jpg, gif)이 이미지 인식 신경망의 훈련 방법에 영향을 줍니까?


22

나는 깊고 회선이 많은 신경망으로 이미지 인식, 이미지 분류 등과 관련하여 많은 발전이 있었다는 것을 알고 있습니다.

그러나 PNG 이미지와 같이 그물을 훈련하면 인코딩 된 이미지 에만 작동 합니까? 다른 이미지 속성 이 이것에 영향을 줍니까? (알파 채널, 인터레이스, 해상도 등?)


2
이미지 통계에 대한 경험이 충분하지 않아 자신감있는 대답을 할 수는 없지만 다른 모델은 완전히 다른 방식을 사용하여 이미지를 기능으로 코딩 할 것으로 예상합니다. 일부는 JPEG 압축 손실, 알파 채널 등의 영향을받습니다 . 일부는 그렇지 않습니다. 세부 사항은 모델별로 다릅니다. 각 픽셀을 기능으로 취급하는 모델과 이미지를 영역에 새기고 영역 속성을 기능으로 사용하는 모델이 모두 있다는 것을 알고 있습니다.
Kodiologist

답변:


20

짧은 대답은 아니오 입니다.

이미지가 인코딩되는 형식은 품질과 관련이 있습니다. 신경망은 본질적으로 많은 연산 (행렬 곱셈, 요소 별 덧셈 및 매핑 함수)을 수행하는 수학적 모델입니다. 신경망은 Tensor 를 입력 (즉, 다차원 배열)으로 간주합니다 . 모양은 일반적으로 4D (배치 당 이미지 수, 이미지 높이, 이미지 너비, 채널 수)입니다.

다른 이미지 형식 (특히 손실이있는 형식)은 다른 입력 배열을 생성 할 수 있지만 엄격하게 말하는 신경망은 입력의 배열이 아닌 이미지를 참조합니다.


4

Djib2011의 답변은 정확하지만 이미지 품질 / 속성이 신경망 학습에 일반적으로 미치는 영향에 더 중점을 둔 것으로 귀하의 질문을 이해합니다. 이 주제 (afaik)에 대한 연구는 거의 없지만 앞으로 더 많은 연구가있을 수 있습니다. 나는 기사 만 찾았 습니다. 현재 문제는 실제 응용 분야에서 나타나는 문제이며 학술 연구 분야에서는 덜 문제입니다. 연구원들이 사진을 찍는 데 사용 된 카메라조차도 큰 영향을 줄 수 있다는 것을 발견 한 현재의 팟 캐스트를 기억합니다.


팟 캐스트로 알려주세요.
David Ernst

"토킹 머신"의 1 시간 분량의 에피소드로 아프리카에서 기계 학습을 연습하는 연구원 (대 중간에서 아이튠즈 링크)과 토론 할 수 있습니다. itunes.apple.com/de/podcast/talking-machines/…
Bobipuegi

2

이것은 Djib2011의 첫 번째 답변에 대한 리프입니다. 짧은 대답은 '아니오'여야합니다. 길게-먼저 사진은 항상 다음과 같이 텐서로 인코딩됩니다. 이미지는 여러 픽셀입니다. 사진에 m 개의 행과 n 개의 열이있는 것으로 간주되면 각 픽셀은 행과 열 위치, 즉 쌍 (m, n)으로 지정됩니다. 특히 '작은'사진의 경우에도 매우 큰 m * n 픽셀이 있습니다. 사진이 흑백 인 경우 사진의 각 픽셀은 0과 1 사이의 숫자 (암흑 강도)로 인코딩됩니다. 사진이 컬러 인 경우 세 개의 숫자 (RGB 강도)로 인코딩됩니다. 따라서 1xmxn 또는 3xmxn 인 텐서로 감 깁니다. 이미지 인식은 CNN을 통해 이루어지며, 사진은 픽셀마다 크게 바뀌지 않는다는 사실을 이용하여 압축합니다필터 및 풀링을 통한 데이터. 요점은 사진의 엄청나게 많은 수의 데이터 포인트 (또는 특징)를 더 적은 수의 값으로 압축함으로써 CNN의 작업입니다. 따라서 어떤 형식으로 시작하든 CNN은 사진 데이터를 추가로 압축하여 시작합니다. 따라서 사진 표현의 크기와 본질적으로 독립성입니다.
그러나 CNN은이를 통해 실행되는 모든 이미지의 크기가 모두 같아야합니다. 따라서 이미지 저장 방법에 따라 달라지는 종속성이 있습니다. 또한, 동일한 크기의 다른 파일 형식이 텐서에 대해 다른 값을 생성하는 한, 동일한 CNN 모델을 사용하여 다른 방법으로 저장된 사진을 식별 할 수 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.