부분 집합에 대한 분포 ?


9

정수 하위 집합에 어떤 종류의 표준 분포가 있는지 궁금합니다 . 마찬가지로 이진 결과 의 길이 벡터 에 대한 분포로 이것을 표현할 수 있습니다 . 예를 들어 이면 는 벡터 합니다.{1,2,...,J}JJ=5{1,3,5}(1,0,1,0,1)

이상적으로 내가 찾고 있는 것은 유한 차원 매개 변수 의해 인덱스 된 패밀리에서 나오는 분포입니다.이 분포는 두 개의 이진 벡터 과 가 비슷한 방식으로 질량을 분포 및 과 같이 "가까운" 확률은 비슷한 확률을 갖습니다. 정말, 내가 희망 할 무엇을 목표로, 투입에 앞서 같은 것을 내가 알고있는 경우 상당히 큰 다음 아마 멀리에서 벡터에 큰 상대적 .νθ()θr1r2r1=(0,0,1,0,1)r2=(0,0,1,1,1)θνθ(r1)νθ(r2)r1

염두에 두어야 할 전략은 에 메트릭 또는 다른 분산 측정을 한 다음 또는 이와 유사한 것입니다. 명시적인 예는 정규 분포와 유사하게 입니다. 괜찮습니다. 그러나 베이지안 분석에 적합한 표준이 있기를 바랍니다. 이것으로 정규화 상수를 쓸 수 없습니다.dθ{0,1}Jνθ(r)exp(dθ(r,μ))exp{rμ2/(2σ2)}


서브 세트 샘플링은 측량 방법론의 기본 문제입니다.
Stéphane Laurent

@ Stephane은 확실하지만 배포판에 반영하려는 추가 원하는 구조가 있다는 점에서 문제가 다르다고 생각합니다. 아마도 하위 집합 측면에서 질문을 표현하는 것은 나에게 거리가 작동한다는 모호한 개념이 있기 때문에 나쁜 생각이었습니다.
guy

"... 그러면 가 작을 것입니다 "라고 쓰 셨나요 ? 정규화 상수가 진행되는 한, 위치 스케일 분포 패밀리의 경우 메트릭에 해밍 거리 를 사용하는 것이 좋습니다. 상수를 항의 합계로 계산할 수 있습니다 . 또한, 기준을 충족하는 모든 패밀리는 이산 파라미터 (위치) 및 연속 파라미터 로 설명 할 수 있습니다 . vθ(r2)J+1JJ
whuber

@ whuber 아니오, 나는 큰 의미였습니다. 가 서로 가까운 점 주위에 질량을 분포 시키고 싶습니다 . 하이퍼 큐브의 정점에 분포를 두는 것으로 질문을 표현하는 것이 더 많은 제안이었을 것이다. 나는 해밍 거리를 고려했다 (내 생각에 과 생각한다 ). 아마도, 아마도 그러한 분포에서 샘플링하려면 일부 MCMC를 수행해야 할 것 같습니다. νθ()L1|riμiσi|
guy

아, 지금 봅니다. 그러나 그것은 당신이 원래 말한 것이 아닙니다. 예를 들어, 특성화에서 이 크고 이 에서 "멀리 떨어진"벡터 세트 이고 가 없는 벡터 인 경우 도 "아마도" 크다. 그러나 "멀리 멀지 않다"와 "닫다"는 정확히 같은 것을 의미하지는 않습니다. 의견에서와 같이 조건을 바꾸면 더 간단하고 내부적으로 더 일관성이 있습니다. 그러나 아닙니다. 해밍 거리를 기준으로 위치 규모 분포를 샘플링하기 위해 MCMC가 필요하지 않습니다. 훨씬 효율적인 방법이 있습니다. ν(r1)Rr1r2Rν(r2)
whuber

답변:


6

풍부함, 유연성 및 계산 적 다루기 때문에 해밍 거리를 기반으로 위치 패밀리를 선호 할 수 있습니다 .


표기법 및 정의

기준이 인 자유 유한 차원 모듈 에서 두 벡터 사이 의 해밍 거리 및 는 장소 수 여기서 .V(e1,e2,,eJ) δHv=v1e1++vJeJw=w1e1++wJeJiviwi

원점이 이면 해밍 거리는 를 구 , 로 분할합니다 . 여기서 입니다. 접지 링에 요소가있는 경우 에는 요소가 있으며 에는 요소가 있습니다. (이것은 요소가 정확히 자리 에서 와 다르다는 것을 관찰 한 직후 입니다.이 중v0VVSi(v0)i=0,1,,JSi(v0)={wV | δH(w,v0)=i}nVnJSi(v)(Ji)(n1)iSi(v)vi(Ji)가능성-독립적 으로 각 장소마다 개의 값을 선택할 수 있습니다.)n1

번역 을 정의하면 분포에 자연스럽게 작용하여 위치 패밀리를 제공합니다. 구체적으로, 가 대한 분포 인 경우 (즉, 보다 약간 적은 의미 , 모든 대해 및 )와 임의의 원소 이어서, 도 분포 어디VfVf:V[0,1]f(v)0vVvVf(v)=1wVf(w)

f(w)(v)=f(vw)

모든 . 위치 가족 분포이 작용 하에서 불변 : 의미 모든 .vV ΩfΩf(v)ΩvV

구성

이를 통해 하나의 고정 벡터 모양을 지정하여 흥미롭고 유용한 분포 군을 정의 할 수 있습니다. 편의상 , 그리고 전체 제품군 를 얻기 위해 의 동작 하에서 이러한 "생성 분포"를 번역합니다 . 가 가까운 지점에서 비슷한 값을 가져야 하는 원하는 특성을 달성하려면 모든 생성 분포의 해당 특성이 필요합니다.v0=(0,0,,0)VΩf

이것이 어떻게 작동하는지 알아보기 위해 거리가 증가함에 따라 감소하는 모든 분포의 위치 패밀리를 구성 해 봅시다. 때문 해밍 거리가 가능하며, 음이 아닌 실수의 어떤 감소 시퀀스 고려 = . 세트J+1a0a0a1aJ0

A=i=0J(n1)i(Ji)ai

함수 를fa:V[0,1]

fa(v)=aδH(0,v)A.

그런 다음 확인하기 쉬운 것처럼 는 의 분포입니다 . 또한, 가 의 양의 배수 인 경우에만 ( 벡터로) ). 따라서 원하는 경우 를 표준화 할 수 있습니다 .faVfa=faaaRJ+1aa0=1

따라서이 구조는 해밍 거리에 따라 감소하는 모든 위치 불변 분포의 명시 적 매개 변수화를 제공합니다. 이러한 분포는 일부 시퀀스 대해 입니다. 및 일부 벡터 입니다.fa(v)a=1a1a2aJ0vV

이 매개 변수화는 편리한 사전 지정을 허용 할 수 있습니다. 위치 및 사전 에 대한 사전을 고려하십시오 . (물론 위치와 모양이 독립적이지 않은 더 큰 일련의 사전을 고려할 수 있지만, 이는 더 복잡한 사업 일 것입니다.)va

임의의 값 생성

에서 샘플링하는 한 가지 방법 은 단계적으로 구형 방사에 대한 분포와 각 구체에 대한 조건부 분포를 고려하여 단계적으로 추출하는 것입니다.fa(v)

  1. 확률 에서 주어진 의 이산 분포에서 지수 를 그 . 여기서 는 이전과 같이 정의됩니다 .i{0,1,,J}(Ji)(n1)iai/AA

  2. 인덱스 는 정확히 자리 에서 와 다른 벡터 집합에 해당 합니다. 따라서, 그 선택을 의 밖으로 배치 각각 동일한 확률을 부여 가능한 서브 세트. (이것은 단지 샘플입니다 밖으로 첨자 없이 교체.)의 부분 집합하자 장소가 기록 될 .ivii(Ji)iJ iI

  3. 모든 대해 와 같지 않은 스칼라 세트에서 값 를 독립적으로 선택하여 요소 를 그 . 그렇지 않으면 설정 . 마찬가지로, 때 0이 아닌 스칼라 에서 무작위로 를 임의로 선택 하고 그렇지 않으면 설정 하여 벡터를 만듭니다 . 집합 .wwjvjjIwj=vjuujjIuj=0w=v+u

이진 경우 3 단계는 필요하지 않습니다.


다음은 설명하기위한 R구현입니다.

rHamming <- function(N=1, a=c(1,1,1), n=2, origin) {
  # Draw N random values from the distribution f_a^v where the ground ring
  # is {0,1,...,n-1} mod n and the vector space has dimension j = length(a)-1.
  j <- length(a) - 1
  if(missing(origin)) origin <- rep(0, j)

  # Draw radii `i` from the marginal distribution of the spherical radii.
  f <- sapply(0:j, function(i) (n-1)^i * choose(j,i) * a[i+1])
  i <- sample(0:j, N, replace=TRUE, prob=f)

  # Helper function: select nonzero elements of 1:(n-1) in exactly i places.
  h <- function(i) {
    x <- c(sample(1:(n-1), i, replace=TRUE), rep(0, j-i))
    sample(x, j, replace=FALSE)
  }

  # Draw elements from the conditional distribution over the spheres
  # and translate them by the origin.
  (sapply(i, h) + origin) %% n
}

사용 예 :

test <- rHamming(10^4, 2^(11:1), origin=rep(1,10))
hist(apply(test, 2, function(x) sum(x != 0)))

분포 에서 iid 요소를 가져 오는 데 초가 걸렸습니다. 여기서 , ( 진 경우), 및 이 기하 급수적으로 감소하고 있습니다.0.2104fa(v)J=10n=2v=(1,1,,1)a=(211,210,,21)

(이 알고리즘은 감소를 요구하지 않으므로 단봉 형이 아닌 모든 위치 군 에서 임의의 변이를 생성 합니다.)a


감사합니다! 이 경우 해밍 거리는 에서 에 불과 하며 큐브 정점으로 제한됩니다. 이러한 맥락에서 해밍 거리는 등방 적으로 작용합니다. 그 거리를 벗어나면 거리 측정에 대해 개 이상의 다른 값 이 있기 때문에 이러한 것들을 복잡하게 생각 합니다. 이것에 대한 일반적인 의견? L1RJJ
guy

예 : 거리 함수의 선택은 의 값에 따라 다릅니다 . 이 질문은 추상적으로 공식화되었으므로 좋은 선택이 무엇인지에 대한 의견을 제시하기 위해 계속 할 것이 없습니다. 해밍 거리는 공칭 값에 적합 할 수도 있고 다른 경우에도 적합 할 수도 있지만 세트에 고유 한 거리감이있는 경우 다른 거리가 더 잘 작동 할 수 있습니다 . 이진 경우 에서는 해밍 거리를 일반화하기 어렵습니다. 이미 일반적인 거리입니다. {1,2,,n}{1,2,,n}n=2
whuber

1

k- 결정 포인트 프로세스의 샘플은 다양성을 장려하는 서브 세트에 대한 분포를 모델링하여 유사한 항목이 샘플에서 함께 발생할 가능성이 적습니다. Ben Taskar의 Alex Kulesza의 K 결정 포인트 프로세스 샘플링을 참조하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.