"세분화"및 ​​"장면 라벨링"과 비교하여 "의미 적 세분화"는 무엇입니까?


97

의미 론적 세분화는 단지 Pleonasm입니까 아니면 "의미 론적 세분화"와 "세그멘테이션"사이에 차이가 있습니까? "장면 라벨링"또는 "장면 파싱"과 다른 점이 있습니까?

픽셀 수준과 픽셀 단위 분할의 차이점은 무엇입니까?

(측면 질문 : 이런 종류의 픽셀 단위 주석이있는 경우 무료로 물체 감지를받을 수 있습니까, 아니면 아직 할 일이 있습니까?)

정의에 대한 소스를 제공하십시오.

"의미 적 분할"을 사용하는 소스

"장면 라벨링"을 사용하는 출처

"픽셀 수준"을 사용하는 소스

  • Pinheiro, Pedro O. 및 Ronan Collobert : "컨볼 루션 네트워크를 사용한 이미지 수준에서 픽셀 수준 레이블링으로." 2015 년 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 회보. ( http://arxiv.org/abs/1411.6228 참조 )

"픽셀 단위"를 사용하는 소스

  • Li, Hongsheng, Rui Zhao 및 Xiaogang Wang : "픽셀 단위 분류를위한 컨볼 루션 신경망의 매우 효율적인 순방향 및 역방향 전파." arXiv 프리 프린트 arXiv : 1412.4526 , 2014.

Google Ngram

최근에는 "장면 라벨링"보다 "의미 적 분할"이 더 많이 사용되는 것 같습니다.

여기에 이미지 설명 입력


보이는 다른 용어는 매우 유사합니다 : (행된) 픽셀 분류 / 표지
마틴 토마스

12
@MartinThoma가 질문 [링크] ( arxiv.org/pdf/1602.06541.pdf ) 을 묻고 거의 6 개월 후에 게시 된 의미 론적 분할을 조사하는 arXiv 프리 프린트를 가지고 있다는 것은 정말 흥미 롭습니다 . 잘 했어!
Mohamed Hasan

답변:


92

"분할" 은 이미지를 여러 "일관된"부분으로 분할하는 것이지만 이러한 부분이 무엇을 나타내는 지 이해하려는 시도가 없습니다 . 가장 유명한 작품 중 하나 (첫 번째는 아님)는 Shi and Malik "Normalized Cuts and Image Segmentation"PAMI 2000 입니다. 이러한 작업은 경계의 색상, 질감 및 부드러움과 같은 저수준 단서의 관점에서 "일관성"을 정의하려고 시도합니다. 이 작품들은 게슈탈트 이론으로 거슬러 올라갈 수 있습니다 .

반면에 "의미 분할" 시도는 의미 론적 의미있는 부분으로 이미지를 분할하는, 그리고 미리 결정 클래스 중 하나에 각 부분을 분류 할 수 있습니다. 전체 이미지 / 세그먼트가 아닌 각 픽셀을 분류하여 동일한 목표를 달성 할 수도 있습니다. 이 경우 픽셀 단위 분류를 수행하여 최종 결과는 동일하지만 경로는 약간 다릅니다.

따라서 "의미 적 분할", "장면 레이블링"및 "픽셀 단위 분류"는 기본적으로 이미지에서 각 픽셀의 역할을 의미 론적으로 이해하는 동일한 목표를 달성하려고한다고 말할 수 있습니다. 그 목표에 도달하기 위해 많은 경로를 택할 수 있으며 이러한 경로는 용어에 약간의 뉘앙스로 이어집니다.


2
시맨틱 분할로 이어지는 경로와 장면 레이블 지정 또는 픽셀 단위 분류로 이어지는 경로는 무엇입니까?
Martin Thoma 2015

3
일반적으로 @moose는 "세분화"연구 분야 (예 : CRF, 부드러움 유도 용어 등)에서 유래 한 도구와 알고리즘을 사용하는 경우 "의미 적 분할"을 수행하는 것입니다. 반면에 이미지 분류에 사용되는 도구와 알고리즘을 로컬에서 사용하는 경우 작업을 "픽셀 단위 레이블링"으로 설명 할 가능성이 더 큽니다. 그러나 실제적인 차이는 없다고 생각합니다. 의미론적일뿐입니다. 이들은 동일한 최종 목표의 동의어입니다.
Shai

63

객체 감지, 객체 인식, 객체 분할, 이미지 분할 및 시맨틱 이미지 분할에 대한 많은 논문을 읽었으며 여기에 사실이 아닐 수있는 내 결론이 있습니다.

객체 인식 : 주어진 이미지에서 모든 객체 (제한된 객체 클래스는 데이터 세트에 따라 다름)를 감지하고 경계 상자로 지역화하고 경계 상자에 레이블을 지정해야합니다. 아래 이미지에서 최첨단 개체 인식 상태의 간단한 출력을 볼 수 있습니다.

물체 인식

객체 감지 : 객체 인식과 비슷하지만이 작업에서는 객체 경계 상자와 비 객체 경계 상자를 의미하는 두 가지 유형의 객체 분류 만 있습니다. 예를 들어 자동차 감지 : 경계 상자가있는 지정된 이미지에서 모든 자동차를 감지해야합니다.

물체 감지

객체 분할 : 객체 인식과 마찬가지로 이미지의 모든 객체를 인식하지만 출력에는 이미지의 픽셀을 분류하는이 객체가 표시되어야합니다.

개체 분할

이미지 분할 : 이미지 분할에서는 이미지의 영역을 분할합니다. 출력은 서로 일치하는 이미지의 세그먼트 및 영역에 레이블을 지정하지 않습니다. 동일한 세그먼트에 있어야합니다. 이미지에서 슈퍼 픽셀을 추출하는 것이이 작업 또는 전경-배경 분할의 예입니다.

이미지 분할

시맨틱 분할 : 시맨틱 분할에서는 각 픽셀에 객체 클래스 (Car, Person, Dog, ...) 및 비 객체 (Water, Sky, Road, ...)로 레이블을 지정해야합니다. 즉, 의미 론적 분할에서 이미지의 각 영역에 레이블을 지정합니다.

의미 세분화

픽셀 수준 및 픽셀 단위 레이블링은 기본적으로 이미지 분할 또는 의미 론적 분할이 동일하다고 생각합니다. 이 링크 에서 귀하의 질문에 동일하게 답변했습니다 .


8
또한 인스턴스 세분화를 추가합니다. 즉, 동일한 개체의 인스턴스 간 전달
Alex

1
"이미지 인식"은 "이미지 감지"가 아닌 "이미지 분류"의 동의어라고 생각합니다. 이미지에서 하나 또는 여러 개체를 인식하고 존재 여부를 알 수있는 것입니다. 또한 그것이 어디에 있는지 알고 싶다면 경계 상자를 사용하여 객체를 감지해야합니다. 또한 객체 감지기가 단일 클래스 만 감지 할 수 있어야하는 이유를 알 수 없습니다.
pietz

부분적으로 동의합니다. 이미지 인식이 무엇인지 언급하지 않았으므로 이미지 인식과 분류가 같은 의미 일 수 있습니다. 그러나 객체 감지는 주로 두 가지 클래스 문제와 다중 클래스의 객체 인식에 사용됩니다. 어쨌든, 나는 내 대답에 대한 경계가 없습니다. 그것은 약 3 년 전 논문을 읽은 내 생각이었습니다! 건배!
e_soroush

당신이 읽은 자료를 찾은 장소에 대해 자세히 설명해 주시겠습니까?
qarthandso

36

이전 답변은 정말 훌륭합니다. 몇 가지 추가 사항을 더 지적하고 싶습니다.

개체 분할

이것이 연구 커뮤니티에서 선호되지 않는 이유 중 하나는 문제가 모호하기 때문입니다. 객체 분할은 단순히 이미지에서 하나 또는 적은 수의 객체를 찾고 그 주위에 경계를 그리는 것을 의미하며, 대부분의 경우 여전히 이것이 의미한다고 가정 할 수 있습니다. 그러나 그것은 또한 개체 일 있는 Blob의 세분화 , 배경에서 개체의 세분화를 의미하는 데 사용되기 시작했습니다. (더 일반적으로 배경 빼기 또는 배경 분할 또는 전경 감지라고 함), 어떤 경우에는 경계 상자를 사용하여 객체 인식과 상호 교환하여 사용하기도합니다 (이는 객체 인식에 대한 심층 신경망 접근 방식의 출현으로 빠르게 중단되었지만, 사전에 객체 인식도 가능할 수 있습니다. 단순히 전체 이미지에 개체를 포함하는 레이블을 지정하는 것을 의미합니다.)

"세분화"를 "의미 적"으로 만드는 것은 무엇입니까?

Simpy, 각 세그먼트 또는 각 픽셀의 딥 메소드의 경우 카테고리에 따라 클래스 레이블이 제공됩니다. 일반적으로 분할은 일부 규칙에 따라 이미지를 분할하는 것입니다. 예를 들어, 매우 높은 수준의 Meanshift 분할은 이미지 에너지의 변화에 ​​따라 데이터를 분할합니다. 그래프 컷기반 세분화는 유사하게 학습되지 않고 나머지 이미지와 분리 된 각 이미지의 속성에서 직접 파생됩니다. 보다 최근의 (신경망 기반) 방법은 레이블이 지정된 픽셀을 사용하여 특정 클래스와 관련된 로컬 특징을 식별 한 다음 해당 픽셀에 대해 가장 높은 신뢰도를 갖는 클래스를 기준으로 각 픽셀을 분류합니다. 이런 식으로 "픽셀 레이블링"은 실제로 작업에 대한보다 정직한 이름이며 "세분화"구성 요소가 등장합니다.

인스턴스 분할

개체 분할의 가장 어렵고 관련성이 높으며 원래 의미 인 "인스턴스 분할"은 동일한 유형인지 여부에 관계없이 장면 내의 개별 개체를 분할하는 것을 의미합니다. 그러나 이것이 그렇게 어려운 이유 중 하나는 비전 관점 (그리고 어떤면에서는 철학적 관점)에서 "객체"인스턴스를 만드는 것이 완전히 명확하지 않기 때문입니다. 신체 부위가 물체입니까? 이러한 "부분 개체"는 인스턴스 분할 알고리즘에 의해 전혀 분할되어야합니까? 전체에서 분리되어 보이는 경우에만 분할되어야합니까? 복합 물체는 두 물체가 명확하게 연결되어 있어야하지만 분리 가능한 물체는 하나 또는 두 개 여야합니다 (바위가 제대로 만들어지지 않은 경우 막대기 위에 도끼, 망치 또는 막대기와 바위 만 붙어 있습니까?). 또한 인스턴스를 구별하는 방법을 명확하게합니다. 유언장은 부착 된 다른 벽과 별개의 인스턴스입니까? 인스턴스는 어떤 순서로 계산되어야합니까? 그들이 나타나는대로? 관점에 근접? 이러한 어려움에도 불구하고, 물체의 분할은 여전히 ​​큰 문제입니다. 인간으로서 우리는 "계급 레이블"에 관계없이 항상 물체와 상호 작용하기 때문입니다. 그래서 일부 데이터 세트는이 문제를 해결하려고 시도하지만, 아직 문제에 대해 많은 관심을 기울이지 않는 주된 이유는 충분히 정의되지 않았기 때문입니다. 여기에 이미지 설명 입력

장면 구문 분석 / 장면 레이블 지정

Scene Parsing은 씬 라벨링에 대한 엄격한 세분화 접근 방식으로, 자체 모호성 문제도 있습니다. 역사적으로 장면 레이블링은 전체 "장면"(이미지)을 세그먼트로 나누고 모든 클래스 레이블을 부여하는 것을 의미했습니다. 그러나 명시 적으로 분할하지 않고 이미지 영역에 클래스 레이블을 부여하는데도 사용되었습니다. 분할과 관련하여 "의미 적 분할" 전체 장면을 분할하는 것을 의미 하지 않습니다 . 의미 론적 세분화의 경우 알고리즘은 알고있는 객체 만 세분화하도록되어 있으며 레이블이없는 픽셀에 레이블을 지정하면 손실 함수에 의해 불이익을받습니다. 예를 들어 MS-COCO 데이터 세트는 일부 개체 만 분할되는 의미 론적 분할을위한 데이터 세트입니다. MS-COCO 샘플 이미지

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.