큰 혼동 행렬을보다 쉽게 ​​읽을 수 있도록하려면 어떻게해야합니까?


9

최근 에 369 클래스 의 데이터 세트 ( link )를 게시했습니다 . 분류 작업이 얼마나 어려운지 느끼기 위해 몇 가지 실험을했습니다. 일반적으로 혼란스런 행렬이 있으면 오류 유형을 볼 수 있습니다. 그러나 행렬은 실용적이지 않습니다.369×369

큰 혼란 매트릭스의 중요한 정보를 제공 할 수있는 방법이 있습니까? 예를 들어, 일반적으로 흥미롭지 않은 0이 많이 있습니다. 완전한 혼란 행렬의 일부인 여러 행렬을 표시 할 수 있도록 대부분의 0이 아닌 항목이 대각선 주위에 있도록 클래스를 정렬 할 수 있습니까?

다음은 큰 혼란 매트릭스의 예입니다 .

야생의 예

EMNIST의 그림 6은 멋지게 보입니다.

여기에 이미지 설명을 입력하십시오

많은 경우가 어디인지 쉽게 알 수 있습니다. 그러나이 수업 은 수업에 불과 합니다. 전체 페이지가 하나의 열 대신에 사용 된 경우 아마도 3 배가 될 수 있지만 여전히 클래스 일 것입니다. 369 클래스의 HASY 또는 1000의 ImageNet에 가깝지 않습니다.26326=78

또한보십시오

CS.stackexchange에 대한 비슷한 질문


안타깝게도 ;-) 당신은 하나의 클래스와 모든 클래스의 혼란 매트릭스를 시도 할 수 있습니다. 그것들이 주어지면, 행동이 일반적이지 않은 모양이나 클래스가 있고 그들에게 완전한 혼란 매트릭스를 사용하십시오.
DaL

1
각 카테고리에 대한 모델의 정확성을보고하는 것이 어떻습니까? 누가 전체 행렬을 볼 필요가 있습니까?
Darrin Thomas

1
@DarrinThomas 논문에보고하는 것만이 아닙니다. 또한 오류를 직접 분석하는 것입니다.
Martin Thoma 2012

1
먼저 값을 행 단위로 정규화 한 다음 히트 맵으로 플로팅 할 수 있습니다. 또한 클래스 별 정확도 (대각선의 정규화 된 값)를 기준으로 클래스를 정렬 할 수 있습니다. 나는 이것이 가독성을 크게 높일 것이라고 생각합니다.
Nikolas Rieble

1
아마 이것을 math.SE / stackoverflow에서 다시 물어봐야합니다. 나는 대부분의 값이 대각선에 가깝도록 행 / 열의 순서를 바꾸는 알고리즘이 있다고 확신합니다.
Martin Thoma 2012

답변:


4

마스터 논문 (48ff 페이지) 에서 설명하고 CMO (Confusion Matrix Ordering ) 라는 기술을 적용 할 수 있습니다 .

  1. 대부분의 오류가 대각선을 따르도록 열 / 행을 정렬하십시오.
  2. 혼동 행렬을 여러 블록으로 분할하여 단일 블록을 쉽게 인쇄 /보기 할 수있게하고 데이터 포인트가 거의 없기 때문에 일부 블록을 제거 할 수 있습니다.

좋은 부작용 :이 방법은 또한 유사한 클래스를 자동으로 묶습니다. 내 석사 논문의 그림 5.12는 다음을 보여줍니다.

여기에 이미지 설명을 입력하십시오

혼동 행렬 순서를 적용 할 수 있습니다. clana


구현에 대해서는 github.com/MartinThoma/clana 를 참조하십시오
Martin Thoma

1

열과 행의 순서를 바꾸는 대신 데이터를 시각화하는 다른 방법을 찾는 것이 좋습니다.

가능한 대안 제안이 있습니다. 비슷한 클래스를 같은 클러스터로 묶는 일종의 클러스터링 알고리즘을 사용하여 클래스를 ~ 20 개의 클러스터로 클러스터링 할 수 있습니다. 예를 들어, 두 클래스가 서로 혼동되는 경우 같은 클러스터에있을 가능성이 높습니다). 그런 다음 군집 당 하나의 행 / 열로 굵은 혼동 행렬을 표시 할 수 있습니다. 의 셀은 클러스터 에서 일부 클래스의 인스턴스가 클러스터 에서 일부 클래스를 가질 것으로 예상되는 빈도를 보여줍니다.(i,j)ij. 또한 ~ 20 개의 세분화 된 혼란 매트릭스를 가질 수 있습니다. 각 클러스터에 대해 각 클러스터의 ~ 20 개 클래스에 대해 클래스의 혼란 매트릭스를 표시 할 수 있습니다. 물론 계층 적 클러스터링을 사용하여이를 확장하고 여러 단위로 혼동 행렬을 가질 수도 있습니다.

다른 가능한 시각화 전략도있을 수 있습니다.

일반적인 철학적 포인트 : 목표를 명확하게하는 데 도움이 될 수도 있습니다 (시각화에서 원하는 것). 시각화의 두 가지 용도를 구별 할 수 있습니다.

  • 탐색 적 분석 : 찾고있는 것이 확실하지 않습니다. 데이터에서 흥미로운 패턴이나 아티팩트를 찾는 데 도움이되는 시각화가 필요합니다.

  • 메시지가있는 그림 : 독자가 가져갈 특정 메시지가 있으며 해당 메시지를 지원하거나 메시지에 대한 증거를 제공하는 시각화를 고안하려고합니다.

무엇을 목표로 삼고 있는지 파악한 다음이를위한 시각화를 고안하는 데 도움이 될 수 있습니다.

  • 하나의 완벽한 시각화를 선택하지 않고 탐색 적 분석을 수행하는 경우 생각할 수있는만큼 많은 시각화를 만들어 보는 것이 종종 도움이됩니다. 그들 중 어떤 것이 완벽한 지 걱정하지 마십시오. 데이터에 대해 잠재적으로 다른 관점을 제공 할 수 있기 때문에 각각에 결함이 있으면 괜찮습니다.

  • 전달하려는 특정 메시지 나 개발하려는 테마가있는 경우 해당 테마를 지원하는 시각화를 찾으십시오. 테마 / 메시지가 무엇인지 모른 채 구체적인 제안을하기는 어렵습니다.


0

EMNIST 혼란 매트릭스가 왜 좋은지 아는 것이 중요합니다.

그러나 나는 그들이 높은 숫자가 가장 어둡게 채색을 유지하지 않은 것이 이상하다고 생각합니다. 일관성이없는 것 같습니다.

색상이 셀의 항목 수를 나타내는 곳에서 일관성을 유지하는 것을 제외하고 EMINST 스타일을 사용하려고합니다. 전체가 0 인 경우 흰색, 가장 많이 입력 된 경우 검정.

완벽한 분류는 완전히 흰색의 위쪽 및 아래쪽 삼각형이있는 검은 대각선입니다. 삼각형에 회색 반점이 있으면 문제를 나타냅니다. 1000 클래스 세트에서도 도움이 될 것입니다. 클래스가 계층 적 인 ImageNet의 경우 하위 클래스가 상위 클래스의 오른쪽에 그룹화되도록 열을 정렬하면 어둡고 어두운 패치가 생길 수 있습니다.

또한 이미지에 대한 상위 5 개 응답을 얻는 경우 클래스가 상호 배타적이지 않을 수 있으므로 lap_dog 이미지에 대한 개 분류가 여전히 참이어야하므로 혼동 행렬에서보다 일반적인 클래스는 훨씬 어둡습니다. 정확한 분류보다 (색상이 정규화 된 경우) 왼쪽 위 사각형이 가장 어둡습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.