정렬 된 목록에 대한 분포


10

주문한 상품 목록이 있다고 가정 해보십시오.

[a, b, c, ... x, y, z, ...]

위의 목록을 지원하여 일부 매개 변수 alpha가 적용되는 배포 제품군을 찾고 있습니다.

  • alpha = 0의 경우 확률 1 을 첫 번째 항목에, 위를, 0을 나머지에 할당합니다 . 즉, 우리 가이 목록에서 샘플을 교체하면 항상을 얻습니다 a.
  • 알파가 증가함에 따라, 우리는 ~ 지수 붕괴에 따라리스트의 순서를 고려하여리스트의 나머지 부분에 더 높은 확률을 할당합니다.
  • alpha = 1이면 목록의 모든 항목에 동일한 확률을 할당하므로 목록에서의 샘플링은 순서를 무시하는 것과 유사합니다.

이것은 기하 분포와 매우 유사하지만 몇 가지 주목할만한 차이점이 있습니다.

  • 기하 분포 분포는 모든 자연수에 대해 정의됩니다. 위의 경우에는 목록의 크기가 고정되어 있습니다.
  • alpha = 0에 대해 기하 분포가 정의되지 않았습니다.

1
잘린 기하 분포의 패밀리를 설명하는 것 같습니다. 그러나 당신의 묘사처럼 질적으로 행동 하는 가족은 무한히 많습니다 . 더 중요한 것은 그러한 가족을 위해 무엇을 사용하고 싶은지를 설명하는 것입니다.
whuber

감사합니다 @ whuber 예,이 설명에 맞는 분포가 무한히 많다는 것을 알고 있습니다. 마음에 드는 특정 것들? 현재이 목록의 첫 번째 요소 (점수를 나타내는)를 선택하는 시스템이 있지만이 선택을 무작위 화 하고이 무작위 화를 매개 변수화하고 싶습니다. 알파를 기반으로 한 특정 유형의 "부패"를 찾고 있지 않습니다. alpha = 0이 무작위 화를 나타내지 않는 경우, 즉 첫 번째 요소를 선택하고, 1은 "모든 요소를 ​​선택"하고, 0과 1 사이의 알파는이 두 알파의 "사이에있는 것"을 나타내면 충분합니다.
Amelio Vazquez-Reina 1

답변:


11

리스트 요소 의 순위 인 가 요소 를 가진리스트에 대해 의 값을 가정 해 봅시다 (타이는 임의로 깨질 수 있습니다). 그런 다음 를 선택할 확률을 다음과 같이 정의 할 수 있습니다.rii{0,1,,n1}ni

pi=αrik=1nαrk

이것은 기본적으로 단지 적절한 정규화 절단 기하 분포이며, 그것은 또한 관련된 소프트 맥스 기능 . 특수한 경우 규칙을 사용하십시오 . 분모는 항상 간단한 닫힌 형식의 표현으로 작성할 수 있습니다. 용 이 소요 값 등에 대한 이 얻어 값 .α=000=1α<11αn1αα=1n

사용하면 각 요소에 동일한 확률을 할당 할 수 있습니다. 마찬가지로 이 모두 제 소자 확률 질량주는 접근한다.α=1α0

10 개의 요소가있는 목록에서 하여 요청한 지수가 대략적으로 감소합니다 .α=0.5

p00.5005p10.2502p20.1251p30.0626p40.0313p50.0156p60.0078p70.0039p80.0020p90.0010

다음 은 길이가 10 인 목록을 사용하여 첫 번째 요소가 선택 될 확률이 따라 어떻게 변경되는지를 보여줍니다 .α

여기에 이미지 설명을 입력하십시오


좋은. 이것은 내가 기대했던 것보다 훨씬 영리합니다.
Matthew Drury

@Matthew 앞에서 언급 한 잘린 기하 분포입니다.
whuber

4

첫 번째 원칙에서 모범을 보이도록 노력하겠습니다.

빌딩 블록으로 세 가지 분포를 봅시다 :

  • P는 목록의 첫 번째 요소에 확률 1을 할당하고 다른 모든 요소에 0을 할당하는 분포입니다.
  • E는 확률 을 목록의 첫 번째 요소에, 를 다음 요소에 할당하는 분포 입니다. 리스트가 유한하기 때문에 이것들의 합은 이되지 않지만 확률 분포를 얻기 위해 정규화 할 수 있습니다.12141
  • U는 목록에 대한 균일 분포입니다.

이제 우리는 이러한 분포의 양의 볼록한 조합으로 구성된 한 모수의 패밀리를 원합니다.

α(t)P+β(t)E+γ(t)U

여기서 모든 에 대해 및 . α(t)+β(t)+γ(t)=1t[0,1]α(0)=1γ(1)=1

기하학적으로, 는 점 사이에 걸쳐있는 정삼각형의 곡선을 추적하기 를 원합니다. 은 첫 번째 코너에서 시작하여 끝나고 마지막입니다. 또한 분포가 중간에 "지수"로 보이기를 원하기 때문에 시간에 커브가 삼각형의 내부를 차지하도록합니다 .(α(t),β(t),γ(t))(1,0,0),(0,1,0),(0,0,1)t(0,1)

커브 옵션은 다음과 같습니다.

(1t(1t))(1t,0,t)+t(1t)(13,13,13)

우리가 원하는 속성 에서이 작업을 거꾸로 구성했습니다. 곡선 은 시작 정점과 끝 정점 사이의 삼각형 가장자리를 따라 이어집니다. 나머지 수식은이 모서리 곡선과 단일 점 의 볼록한 합입니다. 시간에 가장자리를 따라 커브를 내부로 밀어 넣습니다 .( 1(1t,0,t)t(0,1)(13,13,13)t(0,1)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.