딥 러닝이 이미지 처리 / 컴퓨터 비전을 죽이고 있습니까?


52

신호 및 이미지 처리 또는 컴퓨터 비전 (아직 결정하지 않은)에서 MSc에 등록 할 수 있기를 기대하며이 질문이 나왔습니다.

내 관심사는 딥 러닝에는 기능 추출이 필요없고 입력 전처리가 거의 없기 때문에 이미지 처리 (또는 일반적으로 신호 처리)를 죽이는 것입니까?

나는 딥 러닝 전문가는 아니지만 다른 기술과 같은 특징 벡터 대신 직접 이미지를 찍는 인식 및 분류 작업에서 잘 작동하는 것 같습니다.

이미지 처리 기술을 사용하여 기존의 특징 추출 + 분류 접근법이 더 나은 경우가 있습니까, 아니면 딥 러닝으로 인해 죽어 가고 있습니까?


3
업 보트 수가 많고 가장 많이 사용 된 답변에는 업 보트 수가 많으므로 다시 열어야합니다.
Peter K.

1
@LaurentDuval 나는 모든 대답이 도움이되었고 매우 흥미 로웠다고 생각하지만, 주로 나와 당신의 의견과 주제가있는 사람들은 (주제 토론과 함께) 주제를 명확하게 설명했다.
Tony

2
진행중인 토론에서 교차로를 만들고 싶습니다. 딥 러닝에는 기능 추출이 필요하지 않다고 누가 말했습니까? 필자의 실제 경험으로는 원시 데이터에 대해 DNN을 교육해서는 안됩니다. 일부 특징 추출을 수행해야하며 이미지에 대한 기본적인 이해가 있어야합니다. 딥 러닝은주의해서 사용해야하지만 좋은 아이디어입니다.
arun raj

답변:


45

이 게시물은 많이 업데이트되었습니다. 상단에는 링크 업데이트가 있습니다. 아래는 초기 답변의 변형입니다. 짧은 버전 : 컨볼 루션 신경망과 딥 러닝의 성공은 일종의 갈릴리 혁명처럼 보입니다. 실용적인 관점에서, 고전적인 신호 처리 또는 컴퓨터 비전은 죽었습니다 ... 라벨이 지정된 데이터가 충분하고 명백한 분류 실패 ( 심각한 결함 )에 거의 신경 쓰지 않고 탄소 발자국에 대한 생각없이 테스트를 실행할 무한한 에너지가 있다면 , 합리적인 설명을 귀찮게하지 마십시오. 다른 사람들에게는 기능 추출, 최적화 (cf. 동료 J.-C. Pesquet가 심층 신경망 구조 에 관한 연구를 통해 변형 불평등 문제 해결)에 대해 이전에 한 모든 일에 대해 다시 생각하게되었습니다.), 불변성, 정량화 등. 그리고 그로부터 흥미로운 흥미로운 연구가 나오고 있습니다.

업데이트 된 링크 :

우리는 분류기의 정확도를 크게 떨어 뜨리는 실제적, 수정되지 않은, 자연 발생적인 자연적 대적 사례를 소개합니다. 우리는 7,500 개의 자연적 대적 사례를 선별하여 ImageNet-A라고하는 ImageNet 분류기 테스트 세트로 발표합니다. 이 데이터 세트는 분류기 견고성을 측정하는 새로운 방법으로 사용됩니다. l_p 대적 예제와 마찬가지로 ImageNet-A 예제는 보이지 않거나 블랙 박스 분류기로 전송됩니다. 예를 들어, ImageNet-A에서 DenseNet-121은 약 2 %의 정확도, 약 90 %의 정확도 저하를 얻습니다. ImageNet-A 예제는 색상, 질감 및 배경 신호에 대한 과도한 의존성을 포함하여 현재 분류기의 심각한 결함을 이용하기 때문에이 정확도를 복구하는 것은 간단하지 않습니다. 견고성을 향상시키기위한 대중적인 훈련 기술은 거의 영향을 미치지 않습니다. 그러나 우리는 일부 아키텍처 변경이 자연 대적 사례에 대한 견고성을 향상시킬 수 있음을 보여줍니다. 이 어려운 ImageNet 테스트 세트를 강력하게 일반화하려면 향후 연구가 필요합니다.

표준 신호 / 이미지 처리에 대한 딥 러닝 참조 "스테핑"은 하단에 있습니다. Michael Elad는 Deep, Deep Trouble : Deep Learning이 이미지 처리, 수학 및 인류에 미치는 영향 (SIAM News, 2017/05)을 다음과 같이 썼습니다.

그런 다음 신경망이 갑자기 돌아와서 복수했습니다.

이 트리뷴은 데이터를 모델링 / 이해하려는 전통적인 "이미지 처리"에서 많은 통찰력없이 정확성의 영역으로의 전환을 보여 주므로 관심이 있습니다.

이 영역은 상당히 빠르게 발전하고 있습니다. 그렇다고 의도적이거나 일정한 방향으로 진화한다는 의미는 아닙니다. 옳고 그른 것도 아닙니다. 그러나 오늘 아침, 나는 다음과 같은 말을 들었습니다 (또는 농담입니까?) :

엄청난 양의 데이터가 포함 된 잘못된 알고리즘은 일시 중지 데이터 가있는 스마트 알고리즘보다 낫습니다 .

여기 저의 간단한 시도가있었습니다 : 딥 러닝은 최첨단 결과를 제공 할 수 있지만 , 과학자의 일이 왜 일이 왜 작동하는지, 데이터의 내용이 무엇인지 설명하는 데 남아있는 이유를 항상 이해하지는 못합니다

딥 러닝 에는 태그가 잘 지정된 데이터베이스가 필요합니다. (세트 "의 보완적인 특히"무료 사용자 기반 이미지 태그 "항복하지 않을 장소에서 (즉, 뒤에 거대한 데이터베이스가없는) 당신이 단일 또는 단일 이미지에 공예품을 할 때마다 게임과 얼굴을 재생하는 재미 고양이 ") , 기존 이미지 처리를 한동안 유지하고 이익을 얻을 수 있습니다. 최근 트윗는 것을 요약

(많은) 레이블이 지정된 데이터 (변수가 누락되지 않음) 요구 사항은 많은 도메인에서 거래 차단기 (및 불필요한)입니다.

그들이 죽을 경우 (단기 통지로 의심), 아직 죽지 않았습니다. 따라서 신호 처리, 이미지 분석, 컴퓨터 비전에 대한 모든 기술은 향후 도움이 될 것입니다. 예를 들어 블로그 게시물에서 토론했습니다 : Computer Vision의 형상에 대해 잊었습니까? 알렉스 켄달 (Alex Kendall)

딥 러닝은 컴퓨터 비전에 혁명을 가져 왔습니다. 오늘날 최고의 성능을 발휘하는 솔루션이 엔드 투 엔드 딥 러닝 모델을 기반으로하지 않는 문제는 많지 않습니다. 특히, 컨볼 루션 신경망 (convolutional neural network)은 기본적으로 상당히 잘 작동하는 경향이 있으므로 인기가 있습니다. 그러나 이러한 모델은 대체로 큰 블랙 박스입니다. 우리가 이해하지 못하는 것들이 많이 있습니다.

구체적인 예는 다음과 같습니다. 동일한 위치의 매우 어두운 (예 : 감시) 이미지 2 개 중 하나에 감지해야 할 특정 변경 사항이 포함되어 있는지 평가해야하는 경우 기존 이미지 처리의 문제 일 수 있습니다. 딥 러닝 (현재)

다른 한편으로, 딥 러닝이 대규모로 성공함에 따라 일부 데이터의 작은 분류가 잘못 될 수 있으며, 이는 일부 응용 프로그램에서 "평균적으로"무해 할 수 있습니다. 사람의 눈과 약간 다른 두 이미지는 DL을 통해 다르게 분류 될 수 있습니다. 또는 임의의 이미지를 특정 클래스로 설정할 수 있습니다. 예를 들어보기 깊은 신경망은 쉽게 속아 : 인식 할 수없는 이미지에 대한 높은 신뢰도 예측 (구엔 A, Yosinski J, Clune J. PROC 컴퓨터 비전 및 패턴 2,015 인식.), 또는 깊은 학습이 깊은 결함을 가지고 있습니까? , 적대적 부정에 :

연구자들이 특정한 눈에 띄지 않는 섭동을 적용한 후 네트워크가 이미지를 잘못 분류 할 수 있습니다. 섭동은 예측 오차를 최대화하기 위해 픽셀 값을 조정함으로써 발견된다.

"딥 러닝"과 관련하여 "등록 된, 알려진, 대량 검증 가능 또는 예상되는 행동에 반응하는 대량 생산"과 "단일 공예품"에 대해 생각해보십시오. 단일 인덱스 스케일에서 더 나은 것은 아직 없습니다. 둘 다 한동안 공존해야 할 수도 있습니다.

그러나 딥 러닝은 아래 참고 문헌에 설명 된 것처럼 많은 새로운 영역에 퍼져 있습니다.

운 좋게도 일부 사람들은 딥 러닝의 수학적 이론적 근거를 찾으려고 노력하고 있는데, 그 예로 Stéphane Mallat 과 공동 저자가 제안한 산란 네트워크 또는 변환이 있습니다 . 산란을위한 ENS 사이트 참조 . 고조파 분석 및 비선형 연산자, Lipschitz 함수, 변환 / 회전 불변량, 평균 신호 처리 담당자에게 적합합니다. 예를 들어 딥 컨볼 루션 네트워크 이해를 참조하십시오 .


1
적절히 수정 된 사본을 사용하여 불충분 한 훈련 데이터를 보강하면 딥 러닝을 일반화 할 수 있습니다. 최근에는 완벽한 감독 태깅의 필요성에 대한 방법이 발견되었습니다. 감독되지 않은 데이터 확대 는 반지도 학습에서 훈련 데이터의 레이블이없는 부분에 대한 레이블을 자동으로 생성하고 해당 데이터를 훈련에 사용합니다. (답변에이 정보 나 유사한 정보를 자유롭게 포함 시키십시오.)
Olli Niemitalo

1
"일관되게"보강하는 방법을 알고 있다면. 고전적인 데이터 세트에도 문제가 없지만, 내가 다루는 과학적 데이터 (지질, 화학)를 계속 걸어 다니고 있습니다.
Laurent Duval

21

첫째, 이미지 처리 또는 컴퓨터 비전에서 대학원 일을 아무 문제가 없다 하고 깊은 학습을 사용하여이. 딥 러닝은 이미지 처리 및 컴퓨터 비전을 없애는 것이 아니라 해당 분야의 최신 연구 주제 일뿐입니다.

둘째, 딥 러닝은 주로 객체 범주 인식에 사용됩니다. 그러나 그것은 컴퓨터 비전의 많은 영역 중 하나 일뿐입니다. 물체 감지, 추적, 3D 재구성 등과 같은 다른 영역이 있으며, 그 중 많은 부분이 여전히 "수 공식"기능에 의존합니다.


5
주의 : DNN은 물체 감지, 추적, 3D 재구성 등 언급 한 모든 작업을 수행 할 수 있습니다. 어떤 식 으로든 조작 할 수 있으며 DNN과 같은 적응 형 알고리즘이 작동하는 이유 를 설명하기 위해 다시 돌아올 것입니다. 그러나 실수하지 마십시오. DNN은 입력에서 (차별 가능한) 목표 목표로의 변환을 매우 잘 수행 할 수 있습니다.
Tarin Ziyaee

11

딥 러닝은 이미지 처리를 중단시키지 않습니다. 딥 러닝을 수행하려면 거대한 데이터 세트와 많은 계산 리소스가 필요합니다. 계산량이 적고 메모리 공간이 적고 대규모 데이터베이스에 액세스하지 않고도 이미지 처리를 수행 할 수있는 응용 프로그램이 많이 있습니다. 몇 가지 예는 휴대폰, 태블릿, 모바일 카메라, 자동차, 쿼드 콥터입니다. 분류에 대한 매우 인상적인 결과가 있기 때문에 딥 러닝은 현재 매우 과장되어 있습니다.

분류는 이미지 처리가 다루는 많은 문제 중 하나이므로 딥 러닝으로 모든 분류 문제를 해결할 수 있다는 사실에도 불구하고해야 할 다른 유형의 이미지 처리가 많이 있습니다. 노이즈 감소, 이미지 등록, 모션 계산, 모핑 / 블렌딩, 샤프닝, 광학 보정 및 변환, 형상 계산, 3D 추정, 3D + 시간 모션 모델, 스테레오 비전, 데이터 압축 및 코딩, 세그먼트 화, 디 블러 링, 모션 안정화, 컴퓨터 그래픽, 모든 종류의 렌더링.


노이즈 제거, 3D 추정 등 언급 한 모든 것은 적절한 아키텍처의 DNN 및 적절한 데이터로 근사화되고 해결할 수 있습니다.
Tarin Ziyaee

1
예, 재규어에서 주간 쇼핑을 할 수 있습니다 (그러나 그것이 만들어진 이유는 아닙니다).
mathreadler

1
헤헤, 사실 -하지만 당신이 말하는 다른의 캔트 가게 당신의 재규어를 사용하여.
Tarin Ziyaee

DNN이 다루기가 다소 어려운 엔지니어링 문제에 대해 유용한 제약 조건을 쉽게 적용 할 수 있습니다. 예를 들어, 사용 된 방법이 특정 입력 데이터 세트에 편향되어서는 안된다는 제약이 있습니다. 그런 다음 DNN은 모두 교육이 필요하므로 기본적으로 실격 처리되므로 교육 데이터를 사용하여 편향됩니다.
mathreadler

그것은 모든 엔지니어링 툴에 해당됩니다. 그러나 요점이 아닙니다. 요점은 위에서 언급 한 모든 작업이 실제로 DNN으로 매우 잘 해결 될 수 있다는 것입니다. 예, 일부는 최근의 발전 더 있지만, 그것은 그들이 말을 잘못 선도입니다 어차피 DNNs 해결할 수! 그게 다야!
Tarin Ziyaee

11

오늘 우리는 내 친구와 토론을했습니다. 뮌헨의 비오는 날이었고 유럽의 대부분은 맑은 분위기였습니다. 사람들은 소셜 미디어에서 사진을 공유하고 멋진 여름 드레스를 입고 바다를 돌아 다녔습니다. 그녀는이 상황에 짜증을 내며 나에게 물었다. "여기 날씨가 나쁠 때 여름의 멋진 사진이 포함 된 소셜 미디어의 사진을 차단하는 소프트웨어를 작성할 수 있습니까?" 나는 왜 안된다고 말했다. 여름 이미지의 거대한 세트와 부정적인 예를 모아 네트워크를 통해 피드하면 "블록"또는 "블럭 없음"수준에서 이진 분류를 수행 할 수 있습니다. 네트워크를 훈련시키고 조정하십시오. 그게 다야.

그런 다음 나는 나 자신에게로 돌아 섰다. 나는 기계가 나를 위해 생각하도록하지 않고 날씨가 좋은지 아닌지를 결정하는 간단한 알고리즘을 작성하는 방법을 실제로 알고 있는가? 겨우 ... 어쩌면 ... 호기심 독자를 들어, 여기 당신이 그것을 위해 이동하려고 할 경우, 설계 할 수있는 몇 가지 기능이 있습니다 :

2 등급 날씨 분류, Cewu Lu§ Di Lin, Jiaya Jia, Chi-Keung Tang , CVPR 2014

분명히, 나는이 CVPR 간행물에 대해 신경 쓰지 않고 요즘 깊이 들어가고 있습니다. 따라서 많은 시나리오에서 강력한 성능으로 딥 러닝을 좋아하는만큼 신중하게 사용합니다. 이미지 처리에 대한 지식을 잃지 않더라도 필요한 도메인 전문 지식을 줄이는 경향이 있습니다. 지적 적으로 이것은 매우 우아하지 않습니다.

개인이 자신을 추적하고 두 세계의 혜택을 받기로 결정하자마자, 그는 안전한 편에있게 될 것입니다.


6

짧은 대답은 아닙니다. DL은 사진에서 머그잔을 인식 할 수 있지만, 이로 인해 신호 처리가 중단되지는 않습니다. 즉, 귀하의 질문은이 어려운시기에 매우 관련이 있습니다. Stephane Mallat 등을 다루는 주제에 대한 멋진 패널 토론이 있습니다 .


5

데이터 엔지니어링은 머신 러닝에서 여전히 DNN에 공급되는 데이터를 사전 처리하고 선택하여 학습 시간과 평가 효율성을 향상시키는 데 사용됩니다. 데이터 엔지니어링의 한 형태 인 이미지 프로세싱 (카메라 센서와 DNN에 공급되는 RGB / 등 비트 맵 사이의 것들)이 여전히 필요하다.


4

신호 처리에 대한 철저한 이해 (선형 대수, 벡터 미적분학, 수학적 통계 등)는 딥 러닝 분야, 특히 컴퓨터 비전에서 사소한 작업에 필수적입니다.

딥 러닝에 영향을 미치는 일부 고 영향 논문 (지금은 매달린 과일의 대부분이 선택 되었음)은 신호 처리 개념을 잘 이해하고 있습니다.

몇 가지 동기 부여 개념 :

  • 확장 된 회선 : 이 블로그 게시물을 확인하십시오 . 첫 번째 방정식 중 하나는 신호 처리 개념에 잘 정돈 된 사람에게 빵과 버터가 있다는 것입니다. 또한 클래식 웨이블릿 신호 처리에서 발견 되는 트로 우스 알고리즘 과 밀접한 관련이 있습니다 .
  • 전이 된 컨볼 루션 레이어 / Deconv 레이어. 다시 기본 신호 처리 개념.
  • 전환 필터 형성 -운영자 규범 및 수축 매핑에 대한 좋은 아이디어가 필요합니다. 이것은 일반적으로 신호 이론 또는 제어 시스템의 대학원 EE 과정 또는 분석에 대한 수학 과정 (실제 또는 기능)에서 찾을 수 있습니다.
  • 대적 사례 : 이것을 조사한 최초의 논문 중 하나 ( "흥미로운 속성 ..." )는 이것을 섭동과 관련하여 공식화하고 신경망에서 다양한 층과 비선형 성의 Lipschitz 상수를 사용하여 그러한 섭동. 동의 한 바에 따르면, 분석은 매우 예비 적이지만 다시 한 번 딥 러닝을 포함하여 사소한 진보를 이루려면 이론에 대한 사소한 이해가 필요하다는 점을 증명한다고 믿습니다.

목록은 계속됩니다. 따라서 컴퓨터 비전에서 일하고 문제에 딥 러닝을 적용하더라도 신호 처리 배경을 통해 문제를 쉽게 파악할 수 있습니다.


1
예. 네트워크에 공급할 내용을 배우지 않아도되는 모든 지름길은 성능 저하로 어려운 방법을 배워야합니다.
mathreadler

4

나는 실제로 많은 이미지 처리를하지는 않지만 신경망이 80 년대 중반에서 후반까지 인기있는 주제였던 신호 분류에 대한 연구에 자금을 지원 한 단체 (미국 해군)에서 근무했습니다. 본질적으로 마케팅 자료를 많이 모아야했습니다. 논쟁은 다음과 같이 진행되었다.

  • 그것은 뇌와 같은 신경이며 선형 분류기를 능가하기 때문에 통계 기술을 능가합니다. 실제로 통계를 사용하여 성과를 평가했기 때문에 논문을 거부 한 일부 사람들이 실제로 알고 있습니다.
  • 신경망은 귀납적이며, 훈련 세트에 예제가 없거나 거의없는 경우 물건을 올바르게 분류 할 수 있습니다.
  • DARPA는 자금을 지원하고 있으며, DARPA가하는 모든 일이 승자임을 알고 있습니다 (Google은 아직 없었습니다).
  • 성능이 훌륭하지 않고 혼란 매트릭스가 필요하지 않으며 수업 사전이 필요하지 않습니다. 저는 오류 가능성이 무엇인지 알려 드릴 수 있습니다. 경계가 필요하지 않습니다. 홀드 아웃 아웃을하고 셔플을 다시 훈련하십시오.
  • 일부 기능을 선택하고 블랙 박스, 스케일링, 데이터 정렬, 혼란 제거, 잘못된 레이블, 여러 클래스의 발생, 내 문제가 아닙니다.
  • 수학의 안개, 볼츠만 기계
  • SVD와 프랙탈 차원을 던져 보자.
  • 감독 / 감독 미끼 및 스위치, 나는 당신의 모든 숨겨진 패턴을 찾을 수 있습니다. 이 연관 메모리가 심오하지 않습니까?

주교의 책에 내 냉소주의를 쏟아 부었다.

소수의 응용 프로그램에서 최적의 신호 처리 알고리즘을 사용하려면 큰 매개 변수 공간에서 철저한 열거 검색이 필요하므로 빠르게 다루기가 어려워집니다. 서버 팜이 크면 검색 가능한 공간이 늘어날 수 있지만 어느 시점에서는 휴리스틱을 찾아야합니다. DL은 이러한 휴리스틱 중 일부를 찾을 수 있지만 기본 NP 하드 최적화를 해결하지는 못합니다.


당신은 많은 사람들을 실망시키는 것처럼 냉소를 완전히 완화시킬 수 있습니다. 때로는 인생 초기에 배웠 으면 좋겠다.
mathreadler

3

대학의 저의 관점은 많은 신호 처리 사람들이 ML에 대해 적대적이라는 것이 었습니다. 나는 그들이 도메인을 침해하고 있다고 위협했기 때문에 의심합니다. 그러나 최근에는 복잡한 가치가있는 심층 신경망의 이점에 대한 많은 연구가 있었으며, 이는 황금 티켓이 실제로 두 분야에 대한 확실한 이해라는 것을 암시 할 수 있습니다.


1
네. 신호 처리는 기계 학습과 매우 밀접한 관련이 있습니다. 신호 처리에 대한 확실한 이해는 ML 알고리즘을 구축하고 사용하는 방법과 어떤 종류의 데이터가 적합하지 않은지 이해하는 데 도움이됩니다.
mathreadler

2

그래 C ++ 및 Python 'killed'어셈블리 프로그래밍과 같은 고급 프로그래밍 언어의 개발과 동일한 방식으로. CS 과정에 등록 할 때 어셈블리를 배우는 것이 부적절하다는 의미는 아닙니다. 컴퓨터의 작동 방식, 고급 언어의 비하인드 스토리, 컴퓨터 언어의 기본 원칙 등에 대한 통찰력을 제공합니다. 그러나 올바른 마음으로 아무도 데스크톱 앱을 조립할 수 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.