덩어리의 표준 측정?


13

나는 많은 데이터를 가지고 있으며 매우 간단한 것처럼 보이고 싶다. 이 대규모 데이터 세트에서 특정 요소가 얼마나 많이 모여 있는지에 관심이 있습니다. 내 데이터가 {A, C, B, D, A, Z, T, C ...}와 같이 정렬 된 세트라고 가정하겠습니다. A가 세트 전체에 무작위로 (또는 더 고르게) 분포되는 것과는 대조적으로, A가 서로 바로 옆에있는 경향이 있는지 알고 싶습니다. 이것이 제가 "덩어리"라고 부르는 재산입니다.

이제 데이터 "덩어리"에 대한 간단한 측정이 있습니까? 즉, As가 무작위로 얼마나 멀리 분포되어 있는지 알려주는 통계가 있습니까? 간단한 방법이 없다면 어려운 방법은 무엇일까요? 모든 포인터는 대단히 감사합니다!

답변:


14

예를 들어, 각 위치가 알파벳의 소문자 일 가능성이 동일한 순서 집합을 가정합니다. 이 경우 정렬 된 세트에 요소가 포함되도록합니다 .1000

# generate a possible sequence of letters
s <- sample(x = letters, size = 1000, replace = TRUE)

이것은 명령 집합의 각각의 위치는 알파벳의 소문자가 걸쳐 균일 한 분포에 따른 경우, 동일한 문자 두 발생 사이의 거리를 파라미터로 기하학적 분포는 다음 밝혀 . 이 정보에 비추어, 같은 문자가 연속적으로 발생하는 거리를 계산해 봅시다.p=1/26

# find the distance between occurences of the same letters
d <- vector(mode = 'list', length = length(unique(letters)))
for(i in 1:length(unique(letters))) {
    d[[i]] <- diff(which(s == letters[i]))
}
d.flat <- unlist(x = d)

동일한 문자의 발생 사이의 거리에 대한 히스토그램을 살펴보고 위에서 언급 한 기하학적 분포와 관련된 확률 질량 함수와 비교해 봅시다.

hist(x = d.flat, prob = TRUE, main = 'Histogram of Distances', xlab = 'Distance',
     ylab = 'Probability')
x <- range(d.flat)
x <- x[1]:x[2]
y <- dgeom(x = x - 1, prob = 1/26)
points(x = x, y = y, pch = '.', col = 'red', cex = 2)

빨간색 점은 정렬 된 세트의 각 위치가 문자에 대해 균일 한 분포를 따르고 막대 그래프의 막대가 정렬 된 거리와 관련된 거리의 경험적 확률 질량 함수를 나타내는 경우 예상되는 거리의 실제 확률 질량 함수를 나타냅니다. 세트.

여기에 이미지 설명을 입력하십시오

위의 이미지가 기하 분포가 적절하다는 것을 확신시켜주기를 바랍니다.

p=1/260

어떻게 d.flatBhattacharyya 거리의 측면에서 예상되는 기하 분포에 위의 비교?

b.dist <- 0
for(i in x) {
    b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i - 1,
              prob = 1/26))
}
b.dist <- -1 * log(x = b.dist)

0.0260

편집하다:

0.026010,000

gen.bhat <- function(set, size) {
    new.seq <- sample(x = set, size = size, replace = TRUE)
    d <- vector(mode = 'list', length = length(unique(set)))
    for(i in 1:length(unique(set))) {
        d[[i]] <- diff(which(new.seq == set[i]))
    }
    d.flat <- unlist(x = d)
    x <- range(d.flat)
    x <- x[1]:x[2]
    b.dist <- 0
    for(i in x) {
        b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i -1,
                  prob = 1/length(unique(set))))
    }
    b.dist <- -1 * log(x = b.dist)
    return(b.dist)
}
dist.bhat <- replicate(n = 10000, expr = gen.bhat(set = letters, size = 1000))

이제 우리는 위의 관측 된 Bhattacharyya 거리를 관찰 할 확률을 계산할 수 있습니다. 또는 순서가 지정된 집합이 각 위치가 문자에 대한 균일 한 분포를 따르는 방식으로 생성 된 경우 더 극단입니다.

p <- ifelse(b.dist <= mean(dist.bhat), sum(dist.bhat <= b.dist) / length(dist.bhat),
            sum(dist.bhat > b.dist) / length(dist.bhat))

0.38

0999

여기에 이미지 설명을 입력하십시오


문자의 분포는 각 문자에 대해 동일한 확률로 다항식이라고 가정합니다. 분포가 문자의 확률이 다른 경우 어떻게됩니까? -각 문자마다 발생하는 거리의 예상 분포는 여전히 기하학적입니까? 그리고 어떤 매개 변수로?
ttnphns

각 문자에 대해 확률이 다르더라도 각 문자의 발생 간격은 여전히 ​​기하학적입니다. 그러나 매개 변수는 문자에 따라 다르며 각 문자에 대해 해당 문자를 포함하는 순서 집합의 위치 확률과 같습니다.
가정 정상

1
나는 당신의 접근 방식을 좋아합니다. 각 문자의 수가 고정되어 있고 가능한 모든 주문 중에서 순서가 균일하게 그려 졌다고 가정하는 것이 더 현실적이지 않습니까? 불행히도 나는 그 경우 분포가 무엇인지 모른다. 어떤 생각?
gui11aume

@ gui11aume 흥미로운 생각입니다. 관측 된 정렬 된 집합을 여러 번 치환하고 원래의 정렬 된 집합이 통계를 사용하는 순열과 얼마나 유사한지를 볼 수있는 일종의 순열 테스트 방법을 참조하고 있습니까?
가정 정상

그렇습니다, 그것은 내가 생각한 것입니다. 그런 다음 Bhattacharyya 거리 또는 Kullback-Leibler 분기를 사용하여 완전 혼합에서 이탈을 측정 할 수 있습니다.
gui11aume

7

정확하게 설명하고있는 내용은 Runs Test라는 절차로 체계화되었습니다. 마스터하는 것은 복잡하지 않습니다. 통계 자료 (예 : Wikipedia 또는 Nat'l Instit) 에 대한 여러 출처에서 찾을 수 있습니다 . 표준 기술 또는 유튜브 .


+1. @Alan, Runs 테스트는 Wald–Wolfowitz 테스트라고도합니다.
ttnphns

그러나 테스트 실행의 문제점은 이분법 또는 이분법 데이터에만 해당된다는 것입니다.
ttnphns

0

이것에 대해 약간 다른 관점에 관심이 있다면 정보 이론에 대한 입문서, 컴퓨팅, 이미지 / 비디오 / 오디오 처리, 의사 소통 이론 및 (물론 더 놀랍게도) 물리학 및 우주론 (전통적인 열역학뿐만 아니라 블랙홀의 이해에 결정적인)과 생물학까지.

비공식적으로, 일반적인 압축 알고리즘을 적용하면 "클러 피어"문자 시퀀스 (예를 들어)가 더 밀집되어 압축됩니다. 즉, 원시 텍스트를 포함하는 zip 파일이 더 작습니다. 마찬가지로, "뭉친"이미지 (예 : 일반 녹색 베이 즈에 몇 개의 당구 공)는보다 다양한 이미지 (예 : 사람들 그룹 이미지)보다 훨씬 효율적으로 압축합니다 (예 : 작은 jpeg 파일 생성). ). 물론 이러한 데이터의 정보 내용 (음성 엔트로피 또는 "네트로 트로피")은 특정 압축 알고리즘과 무관하게 다양한 형식적 정의를 갖습니다.

정보 이론적 측정이 위의 일반적인 통계 분석보다 더 드러날 수있는 경우의 한 예는 여러 (또는 모든) 해상도 수준에서 "충돌"을 식별하는 데 관심이있는 경우입니다. 텍스트 문자열의 예에서, 시퀀스의 시작 부분에 많은 "A"가 묶여 있으면 "A"가 많이 묶이지 않고, 시퀀스가 ​​계속됨에 따라 주기적으로 더 많이 묶고 덜 묶이게됩니다. 정보의 이론적 측정에 의해 매우 자연스럽게 포착 될 수있는 여러 해상도에서 덩어리가 존재한다고 말할 수 있습니다.

(정보) 사실 정보의 중심과 (neg) 엔트로피에서 "덩어리"에 대한 연구가 현대 생활의 일상적인 운영에 대해 활기차게 정보를 제공 할 때 이것이 우스운 질문일지도 모른다는 당신의 걱정이 나에게 일어난다. (인터넷, 이동 통신, 언어 자체) 그리고 우주의 본질 (블랙홀, 은하 형성, 우주 배경 방사선의 해석, "살아있는"결정)은 "멍청한 질문은 없다"라는 격언으로 대답해야한다 , 멍청한 답변 만 "[기여되지 않은 견적].

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.