불확실성을 포함한 커널 밀도 추정


12

1 차원 데이터를 시각화 할 때 커널 밀도 추정 기법을 사용하여 잘못 선택된 빈 너비를 설명하는 것이 일반적입니다.

1 차원 데이터 셋에 측정 불확실성이있는 경우이 정보를 통합하는 표준 방법이 있습니까?

예를 들어 (내 이해가 순진한 경우 용서) KDE는 관측치의 델타 함수로 가우시안 프로파일을 구성합니다. 이 Gaussian 커널은 각 위치간에 공유되지만 Gaussian 매개 변수는 측정 불확실성과 일치하도록 변경 될 수 있습니다. 이것을 수행하는 표준 방법이 있습니까? 넓은 커널로 불확실한 값을 반영하기를 희망합니다.σ

나는 이것을 파이썬으로 간단하게 구현했지만 이것을 수행하는 표준 방법이나 함수를 모른다. 이 기술에 문제가 있습니까? 이상한 모양의 그래프를 제공합니다. 예를 들어

KDE 비교

이 경우 낮은 값은 더 큰 불확실성을 가지므로 넓은 평평한 커널을 제공하는 반면 KDE는 낮은 (및 불확실한) 값을 과중합니다.


빨간색 곡선은 가변 폭 가우스이고 녹색 곡선은 그들의 합이라고 말하고 있습니까? (이 그래프에서 그럴듯 해 보이지는 않습니다.)
whuber

각 관측치에 대한 측정 오류가 무엇인지 알고 있습니까?
Aksakal

@ whuber 빨간색 곡선은 가변 폭 가우스이며 파란색 곡선은 합계입니다. 초록색 곡선은 폭이 일정한 KDE입니다. 혼란으로 인해 죄송합니다.
Simon Walker

@ Aksakal 네, 각 측정은 다른 불확실성을 가지고 있습니다
사이먼 워커

부수적 인 문제이지만 가우시안 커널을 사용한다는 것은 커널 밀도 추정의 정의가 아닙니다. 어떤 커널은 다른 커널보다 더 현명하거나 유용하지만, 1에 통합하기를 원하는 커널을 사용할 수 있습니다 ....
Nick Cox

답변:


6

너비를 변경하는 것이 합리적이지만 커널 너비를 불확실성과 일치시킬 필요는 없습니다.

관측치에 본질적으로 불확실성이없는 랜덤 변수를 처리 할 때 대역폭의 목적을 고려하십시오 (즉, 정확하게 근접하게 관찰 할 수있는 위치). 그럼에도 불구하고 kde는 대역폭과 관련이 있기 때문에 대역폭을 0으로 사용하지 않습니다. 관측에서의 불확실성보다는 분포의 변동성 (즉, '관찰 내'불확실성이 아닌 '관측 간'변동)

당신이 가진 것은 본질적으로 모든 관측마다 다른 추가 변동 원 ( '관찰 불확실성'이 아닌 경우)입니다.

첫 번째 단계로, "데이터에 불확실성이 0이면 가장 작은 대역폭은 얼마입니까?"라고 말합니다. 그런 다음 해당 대역폭의 제곱의 합과 관측 불확실성에 사용한 의 제곱근 인 새로운 대역폭을 만듭니다 .σi

문제를 보는 다른 방법은 각 관측치를 작은 커널 (관측했던 위치를 나타내는)처럼 작은 커널로 취급하지만 일반적인 (kde-) 커널 (보통 고정 폭)을 구성하는 것입니다. 관측 불확실성 커널과 함께 할 필요는 없으며 결합 밀도 추정을 수행하십시오. (실제로 위에서 제안한 것과 동일한 결과라고 생각합니다.)


2

가변 대역폭 커널 밀도 추정기, 예를 들어 디컨 볼 루션 커널 밀도 추정 용지를 위한 로컬 대역폭 선택기 는 측정 오류 분포가 알려진 경우 적응 창 KDE를 구축하려고 시도합니다. 오류 분산을 알고 있다고 언급 했으므로이 방법이 귀하의 경우에 적용 가능해야합니다. 다음은 오염 된 샘플을 사용한 유사한 접근 방식에 대한 또 다른 논문입니다. 오염 된 샘플에서 커널 밀도 추정의 부트 스트랩 밴드 폭 선택


첫 번째 링크는 ms.unimelb.edu.au로 연결됩니다 . 그것은 종이가 아닙니다. 나는 당신에게 평균 생각 link.springer.com/article/10.1007/s11222-011-9247-y를
안녕 롬에게

이 솔루션은 멋지게 보입니다! 이것을 구현하는 코드에 대해 알고 있습니까?
Adi Ro

@ AdiRo, 깨진 링크를 수정했습니다. 코드가 없습니다
Aksakal

0

David W. Scott, 1992, Wiley의 "다변량 밀도 추정 : 이론, 실습 및 시각화"의 6 장을 참조하십시오.

일 변량 사례 (pp 130-131)의 경우 대역폭 선택에 대한 일반적인 참조 규칙을 도출합니다. 여기서 는 차원에 따른 분산이고, 은 데이터의 양이며 는 대역폭입니다 ( 질문에 를 사용 했기 때문에 내 표기법과 혼동하지 마십시오).σ n h σ

h=(4/3)1/5σn1/5(6.17)
σnhσ

그가 사용하는 일반적인 KDE 표기법은 다음과 같습니다. 여기서 는 커널 함수입니다.K()

f^(x)=1nhi=1nK(xxih)
K()

0

실제로, 당신이 제안한 방법은 지구 과학에서 널리 사용되는 확률 밀도 플롯 (PDP)이라고합니다. https://www.sciencedirect.com/science/article/pii/S0009254112001878

그러나 위의 논문에서 언급 한 바와 같이 단점이 있습니다. 측정 된 오류가 작은 경우와 같이 결국 PDF에 급상승이 발생합니다. 그러나 @ Glen_b ♦가 언급 한 것처럼 KDE와 마찬가지로 PDP를 부드럽게 할 수도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.