컴퓨터 비전 (Gaussian Blur, thresholding, Hough-Transform 등)에 대한 몇 가지 표준 기술을 사용하여 정적 이미지 (.jpeg, .png 등)에서 동전을 감지 할 수있는 컴퓨터 프로그램을 작성했습니다. 주어진 이미지에서 가져온 동전의 비율을 사용하여 어떤 동전이 어느 것인지 확실하게 알 수 있습니다. 그러나 신뢰 수준을 높이고 유형 A로 추정되는 동전 (반지름 비율에서)이 올바른 색상인지 확인합니다. 문제는 영국 동전 등의 경우입니다. (구리,은, 금), 각각의 색상 (구리에서 금으로)은 매우 유사합니다.
RedGreenBlue (RGB) '색 공간'과 관련하여 주어진 동전의 평균 색상을 추출하는 루틴 과이 색상을 HueSaturationBrightness (HSB 또는 HSV) '색 공간'으로 변환하는 루틴이 있습니다.
RGB는 세 가지 코인 색상을 구별하려는 시도에 적합하지 않습니다 (예를 들어 첨부 된 [기본] 이미지 참조). 다른 코인 유형의 색상에 대해 다음 범위와 일반적인 값이 있습니다.
참고 : 여기서 일반적인 값은 실제 이미지의 '픽셀 단위'평균을 사용하여 선택한 값입니다.
**Copper RGB/HSB:** typicalRGB = (153, 117, 89)/(26, 0.42, 0.60).
**Silver RGB/HSB:** typicalRGB = (174, 176, 180)/(220, 0.03, 0.71).
**Gold RGB/HSB:** typicalRGB = (220, 205, 160)/(45, 0.27, 0.86)
먼저 주어진 평균 코인 색상 (RGB 사용)과 RGB 값을 벡터로 취급하여 위에서 주어진 각 코인 유형에 대한 일반적인 값 사이의 '유클리드 거리'를 사용하려고 시도했습니다. 구리의 경우 :
차이의 가장 작은 값 ( )은 주어진 동전이 가장 가능성이 높은 유형을 알려줍니다. 이 방법은 매우 정확하지 않은 것으로 나타났습니다.
나는 또한 동전의 색조를 위에 제공된 유형의 전형적인 값과 비교하려고 시도했습니다. 이론적으로 이것은 이미지의 다양한 밝기 및 채도 수준을 처리하기 위해 훨씬 더 나은 '색 공간'을 제공하지만 충분히 정확하지는 않습니다.
질문 : 정적 이미지에서 색상을 기준으로 코인 유형을 결정하는 가장 좋은 방법은 무엇입니까?
시간 내 주셔서 감사합니다.
편집 1
참고 : 아래에서 논의 한 모든 아이디어를 시도했지만 아무것도 얻지 못했습니다. 조명 조건의 변화 (동일한 이미지 내에서도)는이 문제를 매우 어렵게 만들고 고려해야합니다.
편집 2 (결과 요약)
답변 주셔서 감사합니다. 내 자신에 대한 추가 연구 (응답 및 의견 포함)는 임의의 조명, 임의의 카메라 (모바일 장치), 동전 색의 변동 (동일한 종 / 유형에서도)의 일반적인 경우 에서이 문제를 다루기가 얼마나 힘든지를 강조했습니다. 나는 처음에 피부색 인식 (매우 활발한 연구 분야)을 출발점으로 보았으며, 백인들만 피부색을 인식하는 데에도 여전히 많은 문제가있다 ( 현재의 기술에 대한 검토를 위해이 논문 참조 ). 이 문제에는 연속적이고 다양한 색도를 가질 수있는 세 가지 뚜렷한 색 물체가 포함되어 있다는 사실로 인해 컴퓨터 비전 주제를 분류하고 처리하기가 매우 어렵습니다 (실제로 박사 학위를받을 수 있음) !).
아래 DW 의 매우 유용한 게시물 에서 Gamut Constraint Method를 살펴 보았습니다 . 이것은 처음에는 이미지와 별도의 코인 오브젝트를 조명 조건과 무관 한 색상으로 변환하는 전처리 단계로 매우 유망했습니다. 그러나이 기술조차 완벽하게 작동하지 않으며 (내가 원하지 않는 매핑을위한 이미지 / 히스토그램 라이브러리가 포함되어 있음) 훨씬 복잡한 신경망 아키텍처 방법론도 아닙니다. 실제로이 백서는 다음과 같이 요약합니다.
"current machine colour constancy algorithms are not good enough for colour-based
object recognition.".
즉,이 주제에 대한 최신 논문이 많지 않다는 것을 알 수는 없지만 찾을 수 없으며 현재로서는 매우 활발한 연구 분야가 아닌 것 같습니다.
AVB 의 답변 도 도움이되었으며 L A B *를 간단히 살펴 보았습니다.
"The nonlinear relations for L*, a*, and b* are intended to mimic the nonlinear
response of the eye. Furthermore, uniform changes of components in the L*a*b* colour
space aim to correspond to uniform changes in perceived colour, so the relative
perceptual differences between any two colours in L*a*b* can be approximated by
treating each colour as a point in a three dimensional space."
내가 읽은 것부터, 장치 의존적 이미지를위한이 색 공간으로의 변환은 까다로울 것입니다. 그러나 조금 더 시간이있을 때 (어떤 종류의 구현을 볼 수 있도록) 이것을 자세히 살펴볼 것입니다.
나는이 문제에 대한 구체적인 해결책을 위해 숨을 쉬지 않고 L A B *로 시도한 후 코인 색상을 무시하고 현재의 기하학적 감지 알고리즘 (정확한 Elliptic Hough Transform 등)을 확인하려고합니다.
모두 감사합니다. 그리고이 질문에 대한 최종 메모로, 여기에는 색상 인식이없는 새로운 기하학적 감지 알고리즘이있는 동일한 이미지가 있습니다.