연속 분포에서 샘플링 된 데이터 모드 계산


12

연속 분포에서 샘플링 된 데이터의 '모드'를 맞추는 가장 좋은 방법은 무엇입니까?

연속 분포에 대해 기술적으로 정의되지 않은 모드가 맞기 때문에 ( '정확한가?') 실제로 '가장 일반적인 가치를 어떻게 찾습니까?'를 묻습니다.

부모 분포가 가우스 인 것으로 가정하면 데이터를 비닝하고 모드가 가장 많은 개수의 빈 위치임을 알 수 있습니다. 그러나 빈 크기를 어떻게 결정합니까? 강력한 구현이 있습니까? (즉, 특이 치에 강함). 나는 python/ scipy/을 사용 numpy하지만 R너무 어려움없이 번역 할 수 있습니다 .


8
모드가 기술적 으로이 방법으로 정의되어 있는지 확실하지 않지만 연속 분포의 전역 모드는 일반적으로 밀도가 가장 높은 지점을 의미합니다.
Macro

1
@ 매크로-도움이됩니다. 그런 다음 '(피크) 밀도를 결정하는 가장 좋은 방법은 무엇입니까?'라는 내 질문을 읽을 수 있습니다.
keflavich

1
아마도 데이터에 대한 커널 밀도 추정치를 맞추고 모드를 피크로 추정합니까? 이것은 합리적인 접근법처럼 보이지만이 문제에 대한 문헌에는 익숙하지 않습니다.
Macro

1
x0=xmin,x1,x2,,x9,x10=xmax10%xi+1ximin1j10xj+1xj

2
부모 분포에 대해 어떤 가정을 할 수 있습니까? 매개 변수 인 경우 매개 변수를 추정 한 다음 해당 매개 변수에서 모드를 추정하는 것이 가장 좋습니다. (예를 들어, 표본 평균은 정규 분포의 모드를 추정합니다.) 그렇지 않으면 비닝이 잘못된 방법 일 수 있습니다. 대신, 다양한 반폭을 가진 일련 의 커널 추정기가 일련의 추정기를 제공하는 데 사용될 수 있습니다. 일반적으로 기본 분포가 단수형 인 경우, 커널 평활 모드는 절반 폭이 커지고 추정치 일 수 있으므로 고유 모드로 수렴하는 것처럼 보입니다.
whuber

답변:


4

R에서는 기본 분포의 파라 메트릭 모델링을 기반으로하지 않는 방법을 적용하고 밀도의 기본 커널 추정기를 10000 감마 분산 변수로 사용합니다.

x <- rgamma(10000, 2, 5)
z <- density(x)
plot(z) # always good to check visually
z$x[z$y==max(z$y)]

는 밀도가 가장 높은 것으로 추정되는 x의 값인 0.199를 반환합니다 (밀도 추정값은 "z $ y"로 저장 됨).


3
내가 다르게 할 유일한 것은 다른 대역폭을 사용하는 것입니다. density ()의 기본 대역폭은 특히 좋지 않습니다. 밀도 (x, bw = "SJ")가 더 좋습니다. 모드 추정을 위해 설계된 대역폭을 사용하는 것이 더 좋습니다. 자세한 내용은 sciencedirect.com/science/article/pii/0167715295000240 을 참조하십시오 .
Rob Hyndman

2

빈 크기가 b 인 히스토그램을 만들고 가장 큰 빈에는 크기가 n 인 전체 표본에서 k 개의 항목이 있다고 가정합니다. 그런 다음 해당 빈 내의 평균 PDF를 b * k / n으로 추정 할 수 있습니다.

문제는 총 멤버 수가 적은 다른 빈이 스폿 밀도가 높을 수 있다는 것입니다. PDF 변경 속도에 대한 합리적인 가정이있는 경우에만이 정보를 알 수 있습니다. 그렇다면 두 번째로 큰 빈에 실제로 모드가 포함될 확률을 추정 할 수 있습니다.

근본적인 문제는 이것입니다. 표본은 Kolmogorov-Smirnov 정리에 의해 CDF에 대한 충분한 지식을 제공하므로 중앙값 및 기타 분위수에 대한 추정치가 좋습니다. 그러나 L1의 함수에 대한 근사를 아는 것은 그 미분에 대한 대략적인 지식을 제공하지 않습니다. 따라서 추가 가정없이 PDF에 대한 지식을 제공하는 샘플은 없습니다.


0

고차원 분포에도 적용되는 일반적인 솔루션 스케치는 다음과 같습니다.

  • 발생기에 임의의 입력을주지 않고 역 KL 발산으로 f-GAN을 훈련시킵니다 (즉, 결정적 강제로).

  • 역 KL 발산으로 f-GAN을 훈련시키고, 훈련이 진행됨에 따라 입력 분포를 발전기로 Dirac 델타 함수쪽으로 옮기고, 발전기 손실 함수에 기울기 페널티를 추가하십시오.

  • 어떤 시점에서든 pdf의 근사치를 계산하기 쉽게 평가할 수있는 (차별 가능한) 생성 모델을 훈련하십시오 (예를 들어 VAE, 흐름 기반 모델 또는 자기 회귀 모델이 가능하다고 생각합니다). 그런 다음 어떤 유형의 최적화를 사용하십시오 (모델 추론이 차별화 가능한 경우 일부 그라디언트 향미가 사용될 수 있음)하여 근사값의 최대 값을 찾으십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.