왜 분산을 안정화합니까?


15

나는 Kaggle Essay Eval 방법 을 읽는 동안 분산 안정화 변환을 발견했습니다 . 분산 안정화 변환을 사용하여 평균을 취하기 전에 카파 값을 변환 한 다음 다시 변환합니다. 분산 안정화 변환에 대한 위키를 읽은 후에도 이해할 수 없습니다. 왜 실제로 분산을 안정화합니까? 이것으로 우리는 어떤 유익을 얻습니까?


6
일반적으로 의도는 모수 매개 변수와 무관하게 (점근) 분산을 만드는 것입니다. 이것은 관련된 관심 수량을 계산하기 위해 참조 분포를 알아야하는 경우에 특히 중요합니다.
추기경

답변:


13

한 가지 대답은 다음과 같습니다. 일반적으로 통계적 추론을 수행하는 가장 효율적인 방법은 데이터가 iid 인 경우입니다. 그렇지 않은 경우 다른 관측치에서 다른 양의 정보를 얻는 것이므로 효율성이 떨어집니다. 다시 말해 다른 방법으로 추론에 추가 정보를 추가 할 수있는 경우 (예 : 분산 안정화 변환을 통해 분산의 기능적 형태) 일반적으로 추정치의 정확도를 적어도 무조건 향상시킬 수 있습니다. 매우 작은 샘플에서 분산 모델링을 방해하면 작은 샘플 바이어스가 증가 할 수 있습니다. 이것은 계량 경제학 GMM 유형의 논쟁입니다. 순간을 더 추가하면 점근 적 분산이 증가하지 않습니다. 과도하게 식별 된 자유도에 따라 유한 샘플 바이어스가 증가합니다.

또 다른 대답은 추기경에 의해 주어졌다 : 만약 당신이 점근 적 분산 표현에서 미지의 분산이 걸려 있다면, 점근 적 분포에 대한 수렴은 느려질 것이고, 그 분산을 어떻게 든 추정해야 할 것이다. 데이터 또는 통계를 사전 피봇 팅하면 일반적으로 점근 근사 정확도가 향상됩니다.


나는 당신의 대답의 첫 번째 문장을 이해한다고 생각하며 직관적으로 나에게 호소합니다. 내가 볼 수있는이 관측치의 이름이 있습니까? 다른 관찰에서 다른 양의 정보를 가질 때 어떤 일이 발생하고 어떻게 비효율적인지 보여주는 몇 가지 사고 실험 또는 예제를 찾고 싶습니다.
Pushpendre

설문 조사 통계에 관한 Korn & Graubard (1999)의 텍스트가 그 내용을 설명합니다.
StasK

에프1(1나는에프(κ나는))

@PushpendreRastogi 이 변형에 대한 wikipedia 기사 를 읽고 싶을 수도 있습니다 . 경험적 상관 계수의 분산 (정상 변수 간)을 안정화하기 위해 Fisher가 도입했습니다. 이 경우 변환 된 변수는 표본 크기에만 의존하고 미지의 상관 계수에 의존하지 않는 분산으로 대략 정상입니다 (이로 인해 분산이 "안정화"됩니다).
Elvis

@Elvis, 나는 중추적 통계 ( en.wikipedia.org/wiki/Pivotal_statistic ) 에 대한 Wikipedia 기사에서 상관 관계 예제를 제공했습니다 . [어떻게 지구상에 댓글에 멋진 링크를 제공 했습니까? 나는 href를 시도했는데 못 생겼다.]
StasK
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.