강력한 평균 추정의 충돌 과정


15

나는 (1000 정도의) 추정치가 많으며 모두 장기 탄력성의 추정치입니다. 이 중 절반 이상이 방법 A를 사용하고 나머지는 방법 B를 사용하여 추정됩니다. 어딘가에서 "방법 B 가 방법 A와 매우 다른 것으로 추정합니다. 추정치가 훨씬 높기 때문에 (50-60 %) ". 강력한 통계에 대한 나의 지식은 아무것도 아닙니다. 그래서 나는 두 표본의 표본 평균과 중간 값만을 계산했습니다 ... 그리고 나는 즉시 그 차이를 보았습니다. 방법 A는 매우 집중되어 있고, 중앙값과 평균의 차이는 매우 적지 만, 방법 B 샘플은 크게 변했다.

나는 특이 치와 측정 오류가 방법 B 샘플을 왜곡 시켰으므로 이론과 매우 일치하지 않는 약 50 개 값 (약 15 %)을 버렸습니다. . 밀도도 표시됩니다.

(이상 값을 제거하기 위해 표본 A의 범위를 살펴보고 그 바깥으로 떨어진 B의 모든 표본 점을 제거했습니다.) 이 상황을 좀 더 엄격하게 판단하도록하겠습니다. 그리고 몇 가지 언급이 있습니다. 나는 다양한 기법에 대한 깊은 이해가 필요하지 않고, 강력한 추정 방법론에 대한 포괄적 인 조사를 통해 읽습니다.

나는 특이 치를 제거한 후 평균 차이의 유의성에 대해 t- 검정되었고 p- 값은 0.0559 (t 약 1.9)이며 전체 샘플의 경우 t stat는 약 4.5입니다. 그러나 그것은 실제로 요점이 아니며 수단은 조금 다를 수 있지만 위에서 언급 한 것처럼 50-60 % 차이가 나지 않아야합니다. 그리고 나는 그들이 그렇게 생각하지 않습니다.


3
이 데이터를 사용하여 의도 한 분석은 무엇입니까? 특이 치를 제거하는 관행은 모호한 통계적 신뢰성입니다. "데이터를 만들어서"어떤 수준에서든 중요도를 부여하거나 의미를 부여 할 수 있습니다. 방법 A와 B를 사용하여 측정 값을받은 모집단 A와 B가 진정으로 균질 한 모집단입니까, 아니면 방법이 다른 모집단을 제공했을 가능성이 있습니까?
AdamO

데이터로 수행 할 추가 계산 또는 분석은 없습니다. 최근 연구에 따르면 언급 된 두 가지 방법 모두 일관성이 있으므로 인구는 균질해야합니다. 그러나 데이터의 품질이 우수하지 않으며 B의 일부 값이 실수로 존재한다는 것이 분명합니다 (방법은 오류가 발생하기 쉽습니다). 경제적으로 의미가 없습니다. 제거가 모호하다는 것을 알고 있으므로 더 엄격하고 신뢰할 수있는 것을 찾고 있습니다.
Ondrej

답변:


18

당신은 이론이나 실용적인 것을 찾고 있습니까?

당신이 책을 찾고 있다면, 여기 내가 도움이되는 것들이 있습니다 :

  • FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, 강력한 통계 : 유창 함수에 기반한 접근법 , John Wiley & Sons, 1986.

  • PJ Huber, 강력한 통계 , John Wiley & Sons, 1981.

  • PJ Rousseeuw, AM Leroy, 강력한 회귀 및 이상치 탐지 , John Wiley & Sons, 1987.

  • RG Staudte, SJ Sheather, 강력한 추정 및 테스트 , John Wiley & Sons, 1990.

실용적인 방법을 찾고 있다면 평균을 추정하는 몇 가지 강력한 방법이 있습니다 ( "위치 추정기"가보다 원칙적인 용어라고 생각합니다).

  • 중앙값은 간단하고 잘 알려져 있으며 매우 강력합니다. 특이 치에 대한 견고성이 우수합니다. 견고성의 "가격"은 약 25 %입니다.

  • 5 % 트리밍 된 평균이 또 다른 가능한 방법입니다. 여기서 5 % 가장 높은 값과 5 % 가장 낮은 값을 버린 다음 결과의 평균 (평균)을 가져옵니다. 이것은 특이 치에 덜 강합니다. 데이터 포인트의 5 % 이하가 손상되지 않는 한 양호하지만 5 % 이상이 손상되면 갑자기 끔찍해집니다 (정상적으로 저하되지 않음). 견고성의 "가격"은 중앙값보다 적지 만, 그것이 정확히 무엇인지는 모르겠습니다.

  • {(xi+xj)/2:1ijn}n(n+1)/2x1,,xn관측치입니다. 이는 견고성이 매우 뛰어납니다. 완전히 약화되지 않고 최대 약 29 %의 데이터 포인트 손상을 처리 할 수 ​​있습니다. 견고성의 "가격"은 약 5 %로 낮습니다. 그것은 중앙값에 대한 그럴듯한 대안입니다.

  • 사 분위수 평균은 때때로 사용되는 다른 추정량입니다. 1 사분 위와 3 사 분위의 평균을 계산하므로 계산이 간단합니다. 견고성이 매우 우수합니다. 데이터 포인트의 최대 25 %까지 손상을 견딜 수 있습니다. 그러나 견고성의 "가격"은 사소하지 않습니다 : 약 25 %. 결과적으로 이것은 중앙값보다 열등한 것으로 보입니다.

  • 제안 된 다른 많은 조치들이 있지만, 위의 조치들은 합리적으로 보입니다.

요컨대, 나는 중앙값 또는 아마도 Hodges-Lehmann 추정기를 제안 할 것이다.

추신 : 나는 견고성의 "가격"이 무엇을 의미하는지 설명해야한다. 강력한 추정기는 일부 데이터 포인트가 손상되었거나 이상치 인 경우에도 여전히 잘 작동하도록 설계되었습니다. 그러나 특이 치가없고 손상이없는 데이터 세트에 강력한 추정량을 사용하면 어떻게 될까요? 이상적으로는 데이터를 최대한 효율적으로 사용할 수있는 강력한 견적 도구가 필요합니다. 여기서 우리는 표준 오차 (직관적으로, 추정기에 의해 생성 된 추정치의 일반적인 오 차량)에 의해 효율을 측정 할 수 있습니다. 관측 값이 가우시안 분포 (iid)에서 비롯된 경우 견고성이 필요하지 않다는 것을 알면 평균이 최적입니다. 추정 오차가 가장 작습니다. 견고성의 "가격"은 이 상황에 특정한 강력한 추정값을 적용하면 표준 오차가 얼마나 증가합니까? 중앙값에 대한 25 %의 견고성 가격은 중앙값을 갖는 전형적인 추정 오차의 크기가 평균을 갖는 전형적인 추정 오차의 크기보다 약 25 % 더 크다는 것을 의미한다. "가격"이 낮을수록 좋습니다.


나는 종종 HL 견적자가 n(n+1)/2(xi+xj)/21ijnwilcox.test(..., conf.int=TRUE)

+1, 이것은 정말 훌륭합니다. 그러나 나는 하나의 이쑤시개를 가지고 있습니다. 나는 마지막 단락에서 "오류 용어"라는 문구를 사용하지 않을 것입니다. 대신 '샘플링 분포의 표준 오차'또는 '표준 오차'만 사용합니다.
gung-복직 모니카

매우 체계적이고 간결한 답변, 감사합니다! 개요는 내가 필요한 것입니다. Henrik가 제안한 논문을 읽고 다루어야합니다. 긴 여름 밤 오락을 위해, 나는 당신과 jbowman이 제안한 책을 확인하게 될 것입니다.
Ondrej

@ caracal, 당신은 맞습니다. HL 추정기의 내 특성이 잘못되었습니다. 수정 해 주셔서 감사합니다. 그에 따라 답변을 업데이트했습니다.
DW

감사합니다, @gung! 제안한대로 '표준 오류'를 사용하도록 답변을 편집했습니다.
DW

7

짧고 소화하기 쉬운 것을 좋아한다면 심리학 문헌에서 다음 논문을 살펴보십시오.

Erceg-Hurn, DM, & Mirosevich, VM (2008). 최신의 강력한 통계 방법 : 연구의 정확성과 힘을 극대화하는 쉬운 방법. 미국 심리학자 , 63 (7), 591–601. 도 : 10.1037 / 0003-066X.63.7.591

그들은 주로 Rand R Wilcox의 책에 의존합니다 (이것은 너무 수학적이지는 않습니다).

RR 윌콕스 (2001). 현대 통계 방법의 기본 사항 : 전력과 정확도를 크게 향상시킵니다. 뉴욕; 베를린 : 스프링거.
RR 윌콕스 (2003). 현대 통계 기술을 적용합니다. 암스테르담; 보스턴 : Academic Press.
RR 윌콕스 (2005). 강력한 추정 및 가설 테스트 소개. 학술 출판사.


5

이론과 실제를 잘 결합한 한 권의 책은 Jurečková와 Picek의 R을 사용한 강력한 통계 방법입니다 . 나는 또한 Maronna et al.의 Robust Statistics를 좋아한다 . 그러나 두 가지 모두 원하는 것보다 더 많은 수학을 가질 수 있습니다. R에 중점을 둔보다 적용 가능한 자습서를 보려면이 BelVenTutorial pdf 가 도움 이 될 것입니다.


아, 교수님 Jurečková — 우리 대학의 교사입니다. 두 권의 책을 모두 확인하겠습니다. 좀 더 간단한 문서를 찾고 있었지만 (이 문제는 나에게 매우 중요하지 않기 때문에) 조금 더 깊이 파고 들지 않습니다. 감사!
Ondrej

1
작은 세상입니다! 글쎄, 적어도 귀하의 의견에서 복사하여 철자를 수정했습니다 ...
jbowman
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.