커널 대역폭 : Scott과 Silverman의 규칙


14

스콧과 실버 맨의 대역폭 선택 규칙의 차이점이 무엇인지 일반 영어로 설명 할 수 있습니까? 특히, 하나가 다른 것보다 낫다? 기본 분포와 관련이 있습니까? 샘플 수는?

추신 : 나는 SciPy의 코드를 언급하고 있습니다.


1
나는 파이썬도 알고 싶지 않다. 나는 언제 어떤 규칙을 사용해야 하는지를 이해하는데 도움이 필요합니다.
xrfang

답변:


11

코드의 주석은 두 가지를 본질적으로 동일하게 정의하는 것으로 보입니다 (상수의 상대적으로 작은 차이는 제외).

둘 다 형식 , 둘 다 동일한 (스케일 추정) 처럼 보이고 는 1에 매우 가깝습니다 (최적의 대역폭 추정에서 일반적인 불확실성에 가깝습니다) ).cAn1/5Ac

[binwdith는 Scott과 더 관련이있는 것으로 추정되는 그의 1979 년 논문의 논문 [1] ( )-예를 들어 Wikipedia 참조 -약간 아래로 스크롤 하십시오 .]3.49sn1/3nclass.scott

코드가 "Scott 추정치"라고 부르는 1.059는 Silverman의 (사전) 책에 있습니다 (링크에서 Silverman 참조의 p45 참조-Scott의 파생 내용은 참조하는 책의 p130-131에 있습니다). 그것은 일반적인 이론 추정치에서 비롯됩니다.

최적의 대역폭 (적분 평균 제곱 오차 항에서)은 적분 제 2 미분의 함수이며 , 정규 계산에 대해서는 가 계산에서 나오지만, 대부분의 경우 다른 분포에 대해 최적보다 넓습니다. .1.059σ

용어는의 추정치이다 (특이점 / 사행 / 무거운 꼬리가있는 경우 너무 크게하는 경향을 감소시키는 방식으로하여 정렬 robustified 추정). p46-7에 근거한 p47의 eq 3.30을 참조하십시오.Aσ

이전에 제안한 것과 비슷한 이유로 Silverman은 1.059를 줄이겠다 고 제안했습니다 (실제로 그는 1.059가 아닌 1.06을 사용합니다. 그의 Scott의 책 에서처럼). 그는 0.9에서 나온 IMSE의 효율을 10 % 이하로 낮추는 감소 된 값을 선택합니다.

따라서이 두 폭은 모두 정상에서 IMSE- 최적의 이진 폭을 기준으로하며, 하나는 최적에서, 다른 하나는 정상에서 최적 효율의 90 % 이내가되도록 약 15 % 더 작습니다. [저는 둘 다 "실버 맨"추정치라고 부릅니다 . 왜 Scott의 이름을 1.059로 지정했는지 모르겠습니다.]

제 생각에는 둘 다 너무 큽니다. IMSE- 최적 밀도 추정치를 얻기 위해 히스토그램을 사용하지 않습니다. 그것이 (IMSE 의미에서 최적의 밀도 추정치를 얻는 것) 내가하고 싶은 일이라면, 그 목적으로 히스토그램을 사용하고 싶지 않을 것입니다.

히스토그램은 더 시끄러운 쪽에서 잘못되어야합니다 (눈이 필요한 스무딩을 수행하게하십시오). 나는 이런 종류의 규칙이 제공하는 기본 빈 수를 거의 항상 두 배 이상 늘립니다. 그래서 1.06 또는 0.9를 사용하지 않을 것입니다. 0.5 정도의 것을 사용하는 경향이 있습니다. 실제로 큰 샘플 크기에서는 더 적습니다.

그것들은 데이터에서 일어나는 일을 찾는 데 사용할 수있는 빈이 너무 적기 때문에 (적어도 작은 샘플 크기에서는 여기를 참조하십시오) 실제로 선택할 수있는 것은 거의 없습니다 .

[1] : Scott, DW (1979), "최적 및 데이터 기반 히스토그램에서" Biometrika , 66 , 605-610.


SciPy 문서 here 에 따르면 Scott 규칙은 n ** (-1./(d+4))입니다. 코드를 살펴보면서 "scotts_factor"와 같은 규칙을 잘못 이해했습니다. 대역폭이 너무 큽니다. 수치 대역폭 선택에 대한 새로운 질문을하겠습니다. 감사.
xrfang

일 변량 데이터 ( )를 수행 할 때 위의 수식에서 부분입니다. 그러나 데이터의 변동성 ( 위의 로 측정 )이나 최적화하려는 분포에 대한 용어 ( 1.059 요소와 같이 위에서 호출했습니다 )는 고려하지 않습니다. 이는 상수를 곱해야하는 상수가 아니라 샘플 크기에 따라 대역폭이 어떻게 변해야 하는가입니다. N - 1 / 5Cd=1n1/5Ac
Glen_b-복지국 Monica

@ Glen_b-ReinstateMonica 여기에 게시 한 질문을 볼 수 있습니까? 큰 표본 크기를 사용할 때 Silverman의 규칙에 수반되는 문제를 보여줍니다. 무슨 일이 일어나고 있는지 자세히 대답 해 주시겠습니까?
user269666
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.