2 차원 이진 행렬의 엔트로피 / 정보 / 패턴 측정

53

2 차원 이진 행렬의 엔트로피 / 정보 밀도 / 패턴 유사성을 측정하고 싶습니다. 설명을 위해 몇 가지 그림을 보여 드리겠습니다.

이 디스플레이는 다소 높은 엔트로피를 가져야합니다.

에이)

여기에 이미지 설명을 입력하십시오

중간 엔트로피가 있어야합니다.

비)

여기에 이미지 설명을 입력하십시오

마지막으로이 그림들은 모두 0에 가까운 엔트로피를 가져야합니다.

씨)

여기에 이미지 설명을 입력하십시오

디)

여기에 이미지 설명을 입력하십시오

이자형)

여기에 이미지 설명을 입력하십시오

엔트로피를 포착하는 인덱스가 있습니까? 이 디스플레이의 "패턴 모양"?

물론, 각각의 알고리즘 (예를 들어, 압축 알고리즘; 또는 ttnphns에 의해 제안 된 회전 알고리즘 )은 디스플레이의 다른 특징에 민감하다. 다음 속성을 캡처하는 알고리즘을 찾고 있습니다.

회전 및 축 대칭
클러스터링 양
반복

더 복잡한 알고리즘은 심리적 " 게슈탈트 원리 "의 특성 에 특히 민감 할 수 있습니다 .

근접 법칙 :
대칭의 법칙 : 대칭 이미지는 거리에도 불구하고 집합 적으로 인식됩니다.

이러한 속성을 가진 디스플레이에는 "낮은 엔트로피 값"이 할당되어야합니다. 다소 임의의 / 구조화되지 않은 점이있는 디스플레이에는 "높은 엔트로피 값"이 지정되어야합니다.

단일 알고리즘이 이러한 기능을 모두 캡처하지는 않을 것입니다. 따라서 일부 또는 단일 기능 만 처리하는 알고리즘에 대한 제안도 매우 환영합니다.

특히, 구체적이고 기존의 알고리즘 이나 구현 가능한 특정 아이디어 를 찾고 있습니다 (이러한 기준에 따라 현상금을 수여합니다).

— 펠릭스 S
소스

멋진 질문입니다! 그래도 단일 측정이 필요한 동기는 무엇입니까? 얼굴의 세 가지 속성 (대칭, 클러스터링 및 반복)은 별도의 측정 값을 보장 할만큼 독립적 인 것처럼 보입니다.

— Andy W

지금까지 나는 게슈탈트 원리를 구현 하는 보편적 인 알고를 찾을 수 있다고 생각합니다 . 후자는 주로 기존 프로토 타입의 인식에 기반합니다. 당신의 마음은 이것들을 가지고 있을지 모르지만 당신의 컴퓨터는 그렇지 않을 수도 있습니다.

— ttnphns

나는 둘 다에 동의합니다. 실제로 이전의 단어가 실제로 제안했지만 단일 알고리즘을 찾지 않았습니다 . 단일 속성에 대한 알고리즘을 명시 적으로 허용하도록 질문을 업데이트했습니다. 어쩌면 누군가가 여러 algos의 결과를 결합하는 방법에 대한 아이디어를 가지고있을 수도 있습니다 (예 : "algos 집합의 엔트로피 값이 항상 가장 낮음")

— Felix S

1

현상금이 끝났습니다 . 모든 기고자와 훌륭한 아이디어에 감사드립니다! 이 현상금은 많은 흥미로운 접근 방식을 생성했습니다. 몇 가지 답변에는 많은 두뇌 연구가 포함되어 있으며 때로는 바운티를 나눌 수없는 것이 유감입니다. 마지막으로 솔루션은 @whuber에게 바운티를 수여하기로 결정했습니다. 그의 솔루션은 캡처 한 기능과 구현하기 쉬운 것으로 가장 포괄적으로 보이는 알고리즘이었습니다. 또한 나는 그것이 구체적인 예에 적용되었다는 것에 감사합니다. 가장 인상적인 것은 "직관적 인 순위"의 정확한 순서로 숫자를 할당하는 기능이었습니다. 감사합니다. F

— Felix S

35

심리적, 기하학적 요소를 포함하여 모든 직관을 포착하는 간단한 절차가 있습니다. 그것은 우리의 인식의 기초가되는 공간적 근접성 에 의존 하며 대칭에 의해서만 불완전하게 측정되는 것을 포착하는 본질적인 방법을 제공합니다.

$m$ $n$ $k=2$ $2$ $3$ $3$ $\min(n,m)$ $\min(n,m)$

이것이 어떻게 작동하는지 알아보기 위해 질문의 배열에 대해 계산을 해 봅시다. 에서 까지 위에서 아래로 전화 . 다음은 적용되는 ( 은 물론 원래 배열)에 대한 이동 합계의 도표입니다 . $a_1$ $a_5$ $k=1,2,3,4$ $k=1$ $a_1$

그림 1

왼쪽부터 시계 방향 동일 , , , 및 . 어레이는 로 다음 에 의해 , 에 의해 및 에 의한 각각. 그들은 모두 일종의 "무작위"처럼 보입니다. 기본 2 엔트로피를 사용하여이 임의성을 측정합시다. 들면 이러한 엔트로피의 순서는 . 이것을 의 "프로파일"이라고하자 . $k$ $1$ $2$ $4$ $3$ $5$ $5$ $4$ $4$ $2$ $2$ $3$ $3$ $a_1$ $(0.97, 0.99, 0.92, 1.5)$ $a_1$

대조적으로 의 이동 합계는 다음 과 . $a_4$

그림 2

들면 낮은 엔트로피 어디서 작은 변형이있다. 프로파일은 입니다. 그 값은 값보다 일관되게 낮아 강력한 "패턴"이 존재한다는 직관적 인 의미를 확인합니다 . $k=2, 3, 4$ $(1.00, 0, 0.99, 0)$ $a_1$ $a_4$

이러한 프로파일을 해석하려면 참조 프레임이 필요합니다. 이진 값으로 구성된 임의의 무작위 배열은 엔트로피가 경우 값의 절반이 과 같고 나머지 절반이 과 같습니다 . 이동하는 합 내에서 하여 이웃에 의해 근사 될 수있다 (적어도 큰 배열의 경우)들에게 예측 엔트로피주는 이항 분포를 가질 경향이있는 : $0$ $1$ $1$ $k$ $k$ $1 + \log_2(k)$

엔트로피 플롯

이 결과는 최대 배열을 사용한 시뮬레이션으로 나타납니다 . 그러나 이웃 창 사이의 상관 관계 (창 크기가 배열 크기의 약 절반 임)와 소량의 데이터로 인해 작은 배열 (예 : x 배열)에 대해 분류됩니다. 다음은 실제 프로파일의 플롯과 함께 시뮬레이션에 의해 생성 된 임의의 x 배열 의 참조 프로파일입니다 . $m=n=100$ $5$ $5$ $5$ $5$

프로파일 플롯

이 그림에서 참조 프로파일은 진한 파란색입니다. 어레이 프로파일은 : 빨강, : 금, : 녹색, : 하늘색에 해당합니다. ( 포함하면 의 프로파일에 때문에 그림이 모호해 .) 전반적으로 프로파일은 문제의 순서에 해당합니다 . 명백한 순서가 증가함에 따라 대부분의 값에서 낮아 집니다. 예외는 . 끝날 때까지 경우 이동 합계가 가장 낮은 엔트로피 를 갖는 경향이 있습니다 . 모든 : 이것은 놀라운 규칙 성 계시 에 의해 이웃에 $a_1$ $a_2$ $a_3$ $a_4$ $a_5$ $a_4$ $k$ $a_1$ $k=4$ $2$ $2$ $a_1$ 에는 정확히 또는 검은 사각형이 있으며 더 이상 적지 않습니다. 생각하는 것보다 훨씬 덜 "무작위"입니다. (이것은 가능한 이웃 구성을 다른 가능한 합계로 요약 하는 절차 인 각 이웃의 값을 합한 정보의 손실로 인해 부분적으로 발생합니다 . 각 이웃 내의 클러스터링 및 방향에 대해 이동 합계를 사용하는 대신 이동 연결을 사용합니다. 즉, x 이웃 당 각 에는 $1$ $2$ $2^{k^2}$ $k^2+1$ $k$ $k$ $2^{k^2}$ 가능한 다른 구성; 그것들을 모두 구별함으로써, 우리는 더 작은 엔트로피 측정치를 얻을 수 있습니다. 그러한 측정이 다른 이미지와 비교하여 의 프로파일을 높이는 것으로 생각 됩니다.) $a_1$

움직이는 이웃 내에서 값을 합산 (또는 연결 또는 결합)하여 제어 된 범위의 스케일에 걸쳐 엔트로피 프로파일을 생성하는이 기술은 이미지 분석에 사용되어왔다. 텍스트를 먼저 일련의 문자로 분석 한 다음 일련의 digraph (2 문자 시퀀스), trigraphs 등으로 잘 알려진 아이디어를 2 차원으로 일반화합니다. 또한 프랙탈과도 분명한 관계가 있습니다. 분석 (더 미세하고 미세한 스케일로 이미지의 속성을 탐색). 블록 이동 합 또는 블록 연결을 사용하도록주의를 기울이면 (창간에 겹침이 없음) 연속적인 엔트로피간에 간단한 수학적 관계를 도출 할 수 있습니다. 하나,

다양한 확장이 가능합니다. 예를 들어, 회전 불변 프로파일의 경우 사각형이 아닌 원형 이웃을 사용하십시오. 물론 모든 것은 이진 배열을 넘어 일반화됩니다. 충분히 큰 어레이를 사용하면 비정 지성을 감지하기 위해 로컬로 변화하는 엔트로피 프로파일을 계산할 수도 있습니다.

경우 단일 번호가 필요한 대신에, 전체 프로파일, 공간 무작위성 (또는 이의 부족) 관심사가되는 배율을 선택한다. 이 예제에서,이 스케일은 x 또는 x 이동 이웃에 가장 잘 해당 합니다. 패턴 화를 위해 모두 3-5 셀에 걸친 그룹화에 의존하기 때문입니다 ( x 이웃은 평균적으로 배열도 쓸모가 없습니다). 후자의 척도에서 에서 까지 의 엔트로피 는 , , , 및 $3$ $3$ $4$ $4$ $5$ $5$ $a_1$ $a_5$ $1.50$ $0.81$ $0$ $0$ $0$ ; 이 스케일에서 예상되는 엔트로피 (균일하게 임의의 배열에 대한)는 입니다. 이것은 "보다 엔트로피가 높아야한다"는 의미를 정당화한다 . 이 스케일에서 엔트로피로 묶인 , 및 를 구별하려면 다음 미세한 해상도 ( x 이웃)를 살펴보십시오 . 그들의 엔트로피는 각각 , , 입니다 (임의의 그리드는 값은 입니다.) 이러한 척도에 의해, 원래의 질문은 배열을 정확한 순서로 배열합니다. $1.34$ $a_1$ $a_3$ $a_4$ $a_5$ $0$ $3$ $3$ $1.39$ $0.99$ $0.92$ $1.77$

— 우버
소스

죄송합니다. 이동 합계를 어떻게 생성했는지 이해할 수 없었습니다. 이동 합계를 계산하는 방법을 자세히 설명하십시오.

— ttnphns

1

@ttnphns 다음 은 주제에 대한 유명한 도움말 페이지입니다.

— whuber

4

여기 NumPy와 파이썬에서하기 matplotlib를 사용하여 @whuber, 사용할 수에 의해이 우수한 대답의 결과를 재현 : github.com/cosmoharrigan/matrix-entropy

— 코스모 해리 건

(+1) 매우 일반적인 원리는 다음과 같습니다. 다중 집합 에는 고유 한 요소 의 다중도 , 즉 의해 결정된 확률 분포의 자연스럽게 연관된 엔트로피가 있습니다. 여기서 는 의 고유 요소 집합입니다 . 예는 다양한 차원의 물체에서 다양한 모양의 크기 이웃으로 형성된 다중 집합 입니다. (방금 길이 하위 문자열에 1D 응용 프로그램을 게시 했습니다 .)

M

$M$

μ (e)

$\mu(e)$

e

$e$

p (e) := \frac{μ (e)}{\sum_{e \in S} μ (e)} (e \in S)

$p(e) := \frac{\mu(e)}{\sum_{e\in S}\mu(e)}\ \ (e\in S)$

S

$S$

M

$M$

k

$k$

k

$k$

— res

@ whuber 훌륭한 답변입니다. 직관적 인 의미가 있지만, 이것의 원래 파생물에 대해 인용 할 수있는 기사 나 교과서가 있습니까 (이것이 당신의 원래 작품이라면 공식적으로 저널에 출판했다고 가정합니다)?

— subhacom

10

첫째, 내 제안은 순전히 직관적입니다. 패턴 인식 분야에 대해서는 아무것도 모릅니다. 둘째, 내 것과 같은 수십 가지 제안이 이루어질 수있다.

나는 규칙적인 구성 (즉, 엔트로피가 낮음)이 어떻게 든 이것에 대해 대칭 적이거나 동형이어야한다고 생각합니다. 예를 들어 회전합니다.

구성이 원본과 일치 할 때까지 매트릭스를 회전 (90도, 180도 등으로 회전) 할 수 있습니다 . 항상 4 회전 (360도)에 일치하지만 때로는 그림의 행렬 E와 같이 더 일찍 일치 할 수 있습니다.

각 회전에서 원래 구성과 회전 된 구성간에 동일한 값이 아닌 셀 수를 계산하십시오. 예를 들어, 원래 행렬 A 를 90도 회전과 비교 하면 한 행렬에는 스폿이 있고 다른 행렬에는 공백이있는 10 개의 셀이 있습니다. 그런 다음 원래 행렬을 180도 회전과 비교하십시오. 11 개의 셀이 있습니다. 10 개의 셀은 원래 행렬 A 와 270도 회전 간의 불일치 입니다. 10 + 11 + 10 = 31은 행렬 A 의 전체 "엔트로피"입니다 .

행렬 B의 경우 "엔트로피"는 20이고 행렬 E의 경우 12입니다. 행렬 C 및 D의 경우 "엔트로피"는 90도 후에 회전이 중지되기 때문에 0입니다. 이미 동형화 됨.

여기에 이미지 설명을 입력하십시오

— ttnphns
소스

당신의 제안에 감사드립니다! 회전 변환에 변하지 않는 여러 개의 "쉬운"디스플레이를 생각할 수 있지만 이는 훌륭하고 쉬운 (및 확장 가능) 접근 방식입니다. 나는 어떤 종류의 변형을 갖고 싶은지 생각해야합니다. 그리고 저는 여러분이 각 변환에서 포인트를 세는 방법을 좋아합니다.

— Felix S

감사합니다. 그러나이 접근 방식은 초기 스텁이자 일반적인 아이디어 일 뿐이며 확장 가능하다는 말이 옳습니다.

— ttnphns

나는 당신의 접근 방식을 좋아합니다. 그러나 더 일반적인 대답을 얻으려면 약간 더 큰 대칭 그룹-정체성, 3 회전 및 4 반사 (예 : , en.wikipedia.org/wiki/Dihedral_group )를 . 그런 다음 모든 쌍 (즉, )과 무작위성 사이의 차이 ( )를 계산 합니다 . 은 검은 돌의 수입니다. 순전히 임의의 모양의 경우 얻는 반면 매우 대칭적인 가져옵니다 . 좋은 점은 대한 공식 이 보드의 다른 수의 돌을 보유하고 BW 대칭을 갖는다는 것입니다.

D_{4}

$D_4$

d

$d$

8 * 7

$8* 7$

r = k \frac{1}{8 * 7} \frac{25}{2 n (25 - n)})

$r=k\frac{1}{8*7}\frac{25}{2n(25-n)})$

n

$n$

r \approx 1

$r\approx 1$

r \approx 0

$r \approx 0$

r

$r$

— Piotr Migdal

지나치게 복잡해서 죄송합니다. 그것은 함께 원래의 패턴을 비교하기에 충분 정체성과 다른 그 대칭. 그런 다음 정규화 계수에이 대신 .

7

$7$

7

$7$

7 * 8

$7*8$

— Piotr Migdal

5

정보는 일반적으로 로 정의됩니다 . 가 사용하여 를 코딩하는 데 필요한 비트의 양 설명하는 좋은 이론이 있습니다 . 이것에 대해 더 알고 싶다면 산술 코딩 에 대해 읽어보십시오 . $h(x) = \log p(x)$ $\log_2 p(x)$ $x$ $p$

그렇다면 어떻게 문제를 해결할 수 있습니까? 쉬운. 데이터를 나타내는 일부 를 찾고 여기서 는 놀라움의 척도 또는 해당 정보를 발견 한 새로운 샘플입니다. $p$ $-\log p(x)$ $x$

어려운 것은 대한 모델을 찾아서 데이터를 생성하는 것입니다. 아마도 당신은 '가능한'것으로 생각되는 행렬을 생성하는 알고리즘을 생각해 낼 수 있습니다. $p$

피팅에 대한 몇 가지 아이디어 . $p$

5x5 행렬 만보고있는 경우 가능한 모든 행렬을 저장하는 데 비트 만 필요 하므로 모든 행렬을 열거하고 각각에 특정 확률을 할당 할 수 있습니다. $2^{25}$
제한된 Boltzmann 기계 를 사용 하여 데이터를 맞추십시오 (자유 에너지를 정보 대신 사용해야하지만 괜찮습니다).
zip을 대신 사용 하고 위의 전체 확률 이야기는 신경 쓰지 마십시오. 당신은 Kolmogorov의 복잡성에 대한 근사치로 zip을 사용하기 때문에 공식적으로도 괜찮습니다. 이는 정보 이론가들에 의해 이루어졌으며 표준화 된 압축 거리를 이끌어 냈습니다 . $-\log p(x)$
공간적 사전 신념을 포함하고 Bernoulli 변수를 로컬로 사용하기 위해 그래픽 모델을 사용할 수 있습니다.
변환 불일치를 인코딩하기 위해 컨볼 루션 네트워크 를 사용하는 에너지 기반 모델 을 사용할 수 있습니다 .

위의 아이디어 중 일부는 상당히 무겁고 기계 학습에서 비롯됩니다. 추가 조언이 필요하면 의견을 사용하십시오.

— 바이엘
소스

분명히, Kolmogorov 엔트로피는 철학적 의미에서 "추상적 인 패턴 단순성"을 생각하고 그것이 인간의 마음에 얼마나 간단한지를 예측하려고하지 않는다면 최선의 접근 방법입니다. 그것은 단순히 엔트로피를 "그 패턴을 생성 할 수있는 가장 짧은 프로그램의 길이"라고 말합니다. 물론 컴퓨터 언어를 지정해야하지만 여전히 추상 튜링 머신을 사용하여 트릭을 실행할 수 있습니다.

— Javier Rodriguez Laguna

프로그래밍 언어는 실제로 중요하지 않습니다. 언어 A에서 언어 B로 컴파일하는 프로그램의 추가 부분은 일정한 비트 증가 (컴파일러)를 취하므로 무시 될 수 있습니다.

— bayerj

4

다음 제안은 추론보다 다소 통찰력이 있으므로 그것을 증명할 수는 없지만 적어도 근거를 제시 할 수는 있습니다. 스폿 구성의 "엔트로피"평가 절차에는 다음이 포함됩니다.

자리를 디지털화합니다.
직교 Procrustes 분석을 통해 여러 번 순열 된 구성과 구성을 비교 합니다 .
비교 결과 (식별 계수)를 플롯하고 플롯의 들쭉날쭉 함을 평가합니다.

spots을 디지털화 , 즉 좌표를 취합니다. 예를 들어, 아래는 번호가 매겨진 지점 (번호 순서는 임의적 일 수 있음)과 좌표가있는 구성 D입니다. 여기에 이미지 설명을 입력하십시오

순열을 수행하고 Procrustes 분석을 수행하십시오. 순열 스팟 (데이터의 행)을 임의로 변경하고 순열 된 데이터와 원본 (순열되지 않은) 데이터의 비교 비교를 수행합니다. 동일성 계수를 기록합니다 (두 가지 구성의 유사성 측정, 분석 결과). 순열을 반복합니다-Procrustes-계수를 여러 번 저장합니다 (예 : 1000 회 이상).

위의 정규 구조 에서 수행 한 후 얻은 IDc (ID 계수)에서 무엇을 기다릴 수 있습니까?예를 들어 위의 구성 D를 고려하십시오. 원래 좌표 세트와 자체 좌표를 비교하면 물론 IDc = 1이됩니다. 그러나 일부 스팟을 퍼 뮤트하면 원래 세트와 퍼뮤 테이션 된 ID 사이의 IDc는 1보다 작은 값이됩니다. 대신, 스팟 3과 5를 바꾸십시오. 흥미롭게도 IDc는 다시 .964가됩니다. 같은 가치, 왜? 스폿 3과 5는 1과 4에 대칭이므로 90도 회전하면 중첩됩니다. Procrustes 비교는 회전 또는 반사에 영향을받지 않으므로 쌍 1-4 내의 순열은 쌍 5-3 내의 순열과 "동일"합니다. 더 많은 예제를 추가하기 위해 스팟 4와 7 만 바꾸면 IDc는 다시 .964가됩니다! Procrustes의 경우 쌍 4-7 내의 순열이 "동일"한 것으로 보입니다. (IDc에 의해 측정 된 바와 같이) 동일한 정도의 유사성을 제공한다는 점에서 상기 2와 같다. 분명히 이것은 구성 D가 규칙적이기 때문입니다.규칙적인 구성을 위해 순열 / 비교 실험에서 다소 이산적인 IDc 값을 얻을 것으로 예상됩니다. 불규칙한 구성의 경우 값이 계속되는 경향이 있습니다.

기록 된 IDc 값을 플로팅합니다. 예를 들어 값을 정렬하고 선 플롯을 만듭니다. 나는 각 구성 A, B (정규 불규칙), D, E (정규) 각각으로 실험-5000 순열을 수행했으며 여기에 선 그림이 있습니다.

여기에 이미지 설명을 입력하십시오

D 라인과 E 라인이 더 들쭉날쭉합니다 (특히 D). 이것은 값의 불연속성 때문입니다. A와 B의 값은 훨씬 더 연속적입니다. 플로팅 대신 이산 / 연속도를 추정하는 통계를 선택할 수 있습니다. A는 B보다 연속적이지 않은 것으로 보입니다 (구성 A는 다소 규칙적이지 않지만 라인 플롯은 그것을 보여주지 않는 것 같습니다). 어떤 다른 패턴? 이것은 아직 내 대답의 범위를 벗어납니다. A가 실제로 B보다 덜 규칙적인지에 대한 큰 의문은 눈에 대한 것일 수도 있지만 반드시 Procrustes 분석이나 다른 사람의 눈에 대한 것은 아닙니다.

그건 그렇고, 전체 순열 / Procrustes 실험은 매우 빠르게 수행했습니다. SPSS (내 웹 페이지에 있음)에 대한 자체 Procrustes 분석 매크로를 사용하고 순열을 수행하기 위해 몇 줄의 코드를 추가했습니다.

— ttnphns
소스

3

각 차원을 임의의 변수, 따라서 각 쌍의 숫자 쌍으로 간주하는 상호 정보는 결과를 확신 할 수없는 C를 제외한 모든 경우에 도움이됩니다.

TMVA 매뉴얼 또는 해당 arxiv 항목의 회귀 성능 분석에 대한 그림 8 (p24에서 시작)에 대한 설명을 참조하십시오 .

다른 분포에 대한 다른 메트릭

— 아 다비드
소스

링크 된 문서를 여는 데 문제가 있습니다.

— ttnphns

대체 링크를 추가했습니다. 그러나 첫 번째는 나를 위해 작동합니다 (방금 테스트되었습니다).

— adavid

3

패턴과 같은 패턴의 전역 적 속성을 보는 대신, 각 돌 (= 검은 색 원)이있는 이웃의 수와 같은 로컬 속성을 볼 수 있습니다. 총 스톤 수를 표시해 봅시다 . $s$

돌이 무작위로 던져진 경우, 이웃 분포는 여기서 는 돌의 밀도입니다. 장소 수 은 석재가 내부 ( ), 가장자리 ( ) 또는 모서리 에 있는지 여부에 따라 다릅니다 .

P_{r a n d, p} (k neighbors | n places) = (\binom{n}{k}) p^{k} (1 - p)^{n - k},

$P_{rand,p}(k\ \text{neighbors}|n\ \text{places} ) = {n \choose k} p^{k} (1-p)^{n-k},$

p = s / 25

$p = s/25$

n

$n$

n = 8

$n=8$

n = 5

$n=5$

(n = 3)

$(n=3)$

C) , D) 및 E) 에서 이웃의 분포는 무작위 적이 지 않다는 것이 명백히 보인다 . 예를 들어,에 대한 ) D 모든 내부 돌 정확히이 에서 수득 랜덤 분포에 대향 (이웃 측정 된 대신에 ). $4$ $\approx (0\%,2\%,9\%,20\%,27\%,24\%,13\%,4\%,0\%)$ $(0\%,0\%,0\%,0\%,100\%,0\%,0\%,0\%,0\%)$

따라서 패턴이 무작위인지 정량화하려면 이웃 분포를 비교하고 임의의 과 비교해야합니다 . 예를 들어 평균과 분산을 비교할 수 있습니다. $P_{measured}(k|n)$ $P_{rand,p}(k|n)$

또는 함수 공간에서 거리를 측정 할 수 있습니다. 예 : 여기서 은 갖는 포인트의 측정 된 비율입니다 인접한 공간 및 은 임의 패턴에 대해 예측됩니다. 즉 , 및 입니다.

\sum_{n = {3, 5, 8}} \sum_{k = 0}^{n} {[P_{m e a s u r e d} (k | n) P_{m e a s u r e d} (n) - P_{r a n d, p} (k | n) P_{r a n d, p} (n)]}^{2},

$\sum_{n=\{3,5,8\}} \sum_{k=0}^n\left[P_{measured}(k|n)P_{measured}(n) -P_{rand,p}(k|n)P_{rand,p}(n)\right]^2,$

P_{m e a s u r e d} (n)

$P_{measured}(n)$

n

$n$

P_{r a n d, p} (n)

$P_{rand,p}(n)$

P_{r a n d, p} (3) = 4 / 25

$P_{rand,p}(3) = 4/25$

P_{r a n d, p} (5) = 12 / 25

$P_{rand,p}(5) = 12/25$

P_{r a n d, p} (8) = 9 / 25

$P_{rand,p}(8) = 9/25$

— 피오트르 미달
소스

2

텍스트 문자열의 최소 중복 표현을 찾기 위해 확률과 전이 확률을 사용하여 Shannon의 (1 차원 적) 아이디어로 돌아가는 정보 내용을 개념화하는 간단한 방법이 있습니다. 이미지 (이 경우 정사각형 행렬에 정의 된 이진 이미지)의 경우 x 및 y 도함수 (-1,0, + 1)에 대한 지식을 통해 고유하게 재구성 할 수 있습니다. 3x3 전이 확률과 3x3의 전역 확률 밀도 함수를 정의 할 수 있습니다. 그런 다음 Shannon 정보는 3x3에 적용된 고전 로그 합계 공식에서 얻습니다. 이것은 2 차 Shannon 정보 측정이며 3x3 pdf로 공간 구조를 멋지게 캡처합니다.

이 방법은 2 (2 진) 수준 이상의 그레이 스케일 이미지에 적용 할 때 더욱 직관적 입니다. 자세한 내용 은 https://arxiv.org/abs/1609.01117 을 참조하십시오.

— 키어런 라킨
소스

1

이것을 읽으면서 두 가지가 떠 오릅니다. 첫 번째는 많은 게슈탈트 속성이 예측하기가 매우 어렵다는 것입니다. 많은 박사 학위 과정은 그룹화가 어떻게 이루어지는 지에 대한 모델을 찾으려고 노력합니다. 내 본능은 당신이 생각할 수있는 가장 쉬운 규칙이 반례로 끝날 것이라는 점입니다.

지금까지 gestalt 그룹화에 대한 설명을 제쳐 둘 수 있다면, 유용한 추상화는 입력을 이미지의 특수한 경우로 생각하는 것입니다. 컴퓨터 비전에는 스케일 불변 및 기능 불변 인 기능 세트를 기반으로 이미지에 서명을 할당하는 것을 목표로하는 많은 알고리즘이 있습니다. 가장 잘 알려진 것은 SIFT 기능입니다.

http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

기본적으로 출력은 이러한 기능에 가중치를 부여하는 새로운 벡터가됩니다. 이 벡터를 사용하고 휴리스틱을 적용하고 (아마도 규범을 찾을 수 있음) 원하는 것을 설명 할 수 있기를 바랍니다. 또는 분류기를 훈련시켜 특징 벡터를 입력으로 사용하고 '엔트로피'에 대한 인상을 알려주십시오. 이것의 단점은 적절한 SIFT 기능 (문제에 대해 과도하게 과도한)을 사용하고 매우 적절할 수있는 일종의 매핑을 구성한다는 것입니다. 단점은 자신이 라벨을 많이 작성해야하며 사용하는 분류기에 따라 이해하기가 더 어려울 수 있다는 것입니다.

도움이 되길 바랍니다. 많은 전통적인 컴퓨터 비전 알고리즘도 여기에 적합 할 수 있습니다. 포털에서 위키피디아를 빠르게 탐색하면 추가 정보를 얻을 수 있습니다.

— 알렉스
소스

0

당신의 예는 부울 대수와 디지털 회로의 진리표를 상기시킵니다. 이 영역에서 Karnaugh 맵 (http://en.wikipedia.org/wiki/Karnaugh_map)을 전체 그리드를 표현하는 최소한의 부울 함수를 제공하는 도구로 사용할 수 있습니다. 또는 부울 대수 아이덴티티를 사용하면 함수를 최소 형태로 줄이는 데 도움이 될 수 있습니다. 최소화 된 부울 함수의 항 수를 세는 것이 엔트로피 측정으로 사용될 수 있습니다. 이것은 인접한 이웃 압축과 함께 수직 및 수평 대칭을 제공하지만 대각선 대칭은 없습니다.

부울 대수를 사용하면 두 축 모두 왼쪽 상단 모서리에서 시작하여 AE로 레이블이 지정됩니다. 이런 식으로 예제 C는 부울 함수 (! A &! E)에 매핑됩니다. 다른 예의 경우 축에 별도로 레이블을 지정해야합니다 (예 : AE, FJ).

— 에지 스터
소스