PDF 추정 방법을 평가하는 가장 좋은 방법


10

내가 본 것보다 낫다고 생각하는 아이디어를 테스트하고 싶습니다. 나는 틀릴 수 있지만 내 아이디어를 테스트하고 더 확실한 관찰로 내 의심을 없애고 싶습니다.

내가 생각한 것은 다음과 같습니다.

  1. 분포 세트를 분석적으로 정의합니다. 이들 중 일부는 가우시안, 유니폼 또는 Tophat와 같은 쉬운 것입니다. 그러나 이들 중 일부는 심슨 분포와 같이 어렵고 도전적이어야합니다.
  2. 이러한 분석 분포를 기반으로 소프트웨어를 구현하고이를 사용하여 일부 샘플을 생성하십시오.
  3. 분포는 분석적으로 정의되어 있기 때문에 이미 정의에 따라 실제 PDF를 알고 있습니다. 대단하다.
  4. 그런 다음 위의 샘플에 대해 다음 PDF 추정 방법을 테스트합니다.
    • 기존의 PDF 추정 방법 (다양한 커널과 대역폭을 가진 KDE와 같은).
    • 내가 생각하는 내 자신의 생각은 시도해 볼 가치가 있습니다.
  5. 그런 다음 실제 PDF에 대한 추정 오류를 측정합니다.
  6. 그런 다음 어떤 PDF 추정 방법이 좋은지 더 잘 알 것입니다.

내 질문은 :

  • Q1 : 위의 계획보다 개선 된 사항이 있습니까?
  • Q2 : 많은 실제 PDF를 분석적으로 정의하기가 어렵습니다. 여기에서 재사용 할 수있는 다양한 난이도 (매우 어려운 것을 포함하여)로 분석적으로 정의 된 많은 실제 PDF의 목록이 이미 있습니까?

이것은 몬테카를로 시뮬레이션처럼 들리나요?
Christoph Hanck

답변:


2

A2 : 다음 벤치 마크 세트 에서 1D로 분석법을 테스트 할 수 있습니다 .


바로 내가 찾던 것입니다. 그렇습니다. 현재 관심있는 것은 1D입니다.
원시인

11
  • A1. 이것은 현명한 계획처럼 들립니다. 몇 가지 사항 만 언급하면됩니다. 다른 오류 측정 항목으로 테스트하고 싶을 것입니다 (손실 함수에 따라 방법이 다르게 수행되므로, KL 분기 등). 또한 서로 다른 수의 샘플을 테스트해야합니다. 마지막으로, 많은 밀도 추정 방법이 불연속 / 경계선 근처에서 악명 높은 성능을 발휘하므로 잘린 PDF를 세트에 포함시켜야합니다.

  • A2. 1D PDF에만 관심이 있거나 다변량 사례를 테스트 할 계획입니까? pdf의 벤치 마크 제품군에 관해서는 MCMC 알고리즘테스트 한다는 목표와 관련하여 과거에 다소 관련이있는 질문을 했지만 잘 설정된 pdf 세트와 같은 것을 찾지 못했습니다.

시간과 계산 리소스가 충분하다면 아이디어에 대한 일종의 적대적인 테스트 를 수행하는 것이 좋습니다.

  • 매우 유연한 파라 메트릭 제품군 (예 : 다수의 알려진 pdf의 대규모 혼합)을 정의하고 볼록하지 않은 전역 최적화 방법 (*)을 통해 혼합물의 파라미터 공간을 이동 하여 분석법의 성능 을 최소화 하고 최대화 다른 최첨단 밀도 추정 방법의 성능 (및 그 반대). 이것은 방법의 강도 / 약점에 대한 강력한 테스트가 될 것입니다.

마지막으로, 다른 모든 방법 보다 우수해야한다는 요구 사항이 지나치게 높습니다. 직장에서 무료 급식 원칙 이 없어야합니다 (매끄러움, 길이 척도 등과 같은 기본 알고리즘이 있습니다). 귀하의 방법이 귀중한 기여가 되려면 알고리즘이 더 잘 작동하는 일반적인 관심 영역 / 영역이 있음을 보여 주면됩니다 (위의 적대적인 테스트는 그러한 영역을 찾거나 정의하는 데 도움이 될 수 있습니다).

(*) 성능 지표는 확률론 적이므로 (몬테카를로 샘플링을 통해 평가할 것이므로) 시끄럽고 비용이 많이 드는 객관적인 함수의 최적화에 대한 이 답변 을 확인 하는 것이 좋습니다.


1

Q1 : 위의 계획보다 개선 된 사항이 있습니까?

조건에 따라서. 혼합물 분포 잔차는 종종 불필요한 혼합 분포를 데이터 모델로 데이터 모델로 지정하는 것과 같은 어리석은 일을함으로써 발생합니다. 따라서 내 자신의 경험에 따르면 모델에있는 것처럼 출력에 혼합 분포 용어를 적어도 많이 지정하는 것이 좋습니다. 또한 혼합 PDF의 출력은 모델의 PDF와 다릅니다. Mathematica 기본 검색에는 두 항이 포함 된 혼합 분포가 포함되며 더 큰 숫자로 지정할 수 있습니다.

Q2 : 여기에서 재사용 할 수있는 다양한 난이도 (매우 어려운 것을 포함하여)로 분석적으로 정의 된 많은 실제 PDF 목록이 이미 있습니까?

다음은 Mathematica의 FindDistribution 루틴 목록입니다 .

TargetFunctions의 가능한 연속 분포는 다음과 같습니다 BetaDistribution, CauchyDistribution, ChiDistribution, ChiSquareDistribution, ExponentialDistribution, ExtremeValueDistribution, FrechetDistribution, 감마 분포, GumbelDistribution, HalfNormalDistribution, InverseGaussianDistribution, LaplaceDistribution, LevyDistribution, LogisticDistribution, LogNormalDistribution, MaxwellDistribution, NormalDistribution, 파레토 분포, 레일리 분포, StudentTDistribution, UniformDistribution, 베이 불 분포 , 히스토그램 분포.

TargetFunctions에 대한 가능한 이산 형 분포는 BenfordDistribution, BinomialDistribution, BorelTannerDistribution, DiscreteUniformDistribution, GeometricDistribution, LogSeriesDistribution, NegativeBinomialDistribution, PascalDistribution, PoissonDistribution, WaringYuleDistribution, ZipfDistribution :

내부 정보 기준은 Bayesian 정보 기준을 TargetFunctions 이전 버전과 함께 사용합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.