부트 스트랩-특이 치를 먼저 제거해야합니까?


19

우리는 새로운 제품 기능에 대한 분할 테스트를 실행했으며 수익 향상이 중요한지 측정하려고합니다. 우리의 관찰은 확실히 정상적으로 배포되지 않습니다 (대부분의 사용자는 지출하지 않으며, 그 범위 내에서 많은 소규모 지출 자와 약간의 지출로 크게 왜곡됩니다).

우리는 부트 스트랩을 사용하여 평균을 분배하지 않는 데이터 문제를 해결하기 위해 수단을 비교하기로 결정했습니다 (질문 : 부트 스트랩을 합법적으로 사용합니까?)

내 질문은 부트 스트랩을 실행하기 전에 데이터 세트에서 특이 치를 제거해야합니까 (예 : 매우 큰 지출 자), 중요하지 않습니까?


1
좋은 질문 : 아마 전문가와 이상치 제거에 반대 할 수 있습니다. 특이 치에 대해 걱정할 때 중간 값을 사용하지 말고 찾고자하는 것이 단지 "중앙 경향"입니까? 돈 관련 변수는 종종 불합리한 분포 (예 : 파레토)가 치우친 것으로 가정합니다.
usεr11852는 Reinstate Monic이

1
@ user11852 중간 값은 평균과 거의 관련이 없으며 이는 수익과 관련이 있습니다. 특히 총 수익의 주요 원인이 될 때 "이상 값"을 제거하는 데 유리한 주장을하는 것이 흥미로울 것입니다.
whuber

1
불행히도 사용자의 <10 %가 전혀 지출하지
않기

2
@ user11852 특이 치가 합법적이라는 일반적인 주장이 도움이됩니다. 그러나 증폭 가능성에 관해서는 그 반대의 경우가 있습니다. 부트 스트랩은 전체 샘플을 사용하는 경우에만 작동 할 가능성이 있습니다. 그렇지 않으면 이상 치가 존재하지 않았을 때 상황이 어떻게 될지 알려주는 동화를 제시하지만 분명히 그렇게합니다. 더 큰 문제는 부트 스트래핑이 작은 샘플에 적용될 때 이론적 근거가 거의 없다는 것입니다. 이론은 점근 적 입니다.
whuber

2
이것은 중요한 질문입니다 (+1). 작은 데이터 세트 샘플 또는 질문과 유사한 시뮬레이션 된 샘플을 추가 할 수 있습니까? 이 경우 일러스트레이션을 제공하는 것이 더 유익 할 것이라고 생각합니다.
user603

답변:


6

이 문제를 해결하기 전에 "이상치 제거"의 통계적 과실이 적용된 통계 교육학의 많은 부분에서 잘못 공표되었다는 것을 인식하는 것이 중요합니다. 전통적으로 특이 치는 높은 레버리지, 영향력있는 관측으로 정의됩니다. 데이터 분석에서 그러한 관찰을 식별 할 수 있고 식별해야하지만 이러한 조건만으로는 그러한 관찰을 제거 할 필요는 없습니다. "진정한 특이 치"는 실험 설계의 복제와 일치하지 않는 높은 레버리지 / 높은 영향 관찰입니다. 이와 같이 관측을하려면 해당 인구에 대한 전문 지식과 "데이터 생성 메커니즘"에 대한 과학이 필요합니다. 가장 중요한 측면은 잠재적 이상치의 식별 할 수 있어야한다는 것입니다 연역적 .

부트 스트랩 측면의 경우, 부트 스트랩은 샘플링 모집단에서 독립적이고 반복되는 드로우를 시뮬레이션합니다. 분석 계획에서 제외 기준을 미리 지정 하면 참조 부트 스트랩 샘플링 분포에 제외 된 값을 그대로 두어야합니다 . 데이터를 샘플링 한 후 제외를 적용하여 전력 손실이 발생하기 때문입니다. 그러나 미리 지정된 제외 기준이없고 사후 조정을 사용하여 특이 치가 제거되는 경우 분명히 반증하는 것처럼 이러한 값을 제거하면 특이 치 제거로 인한 추론에서 동일한 오류가 전파됩니다.

100 명의 표본화되지 않은 단순 무작위 표본에서 부와 행복에 대한 연구를 고려하십시오. "인구의 1 %가 세계 부의 90 %를 보유하고있다"는 말을한다면, 평균적으로 매우 영향력있는 가치를 볼 수있을 것입니다. 또한 기본적인 삶의 질을 넘어서서 더 큰 소득으로 인한 과도한 행복이 없었다고 가정하자 (비정기적인 추세). 따라서이 개인도 높은 레버리지입니다.

비 대응 데이터에 적합한 최소 제곱 회귀 계수는 이러한 데이터에서 모집단 평균 1 차 추세를 추정합니다. 행복이 중간 소득 수준에 가까운 사람들과 일치하는 샘플에서 우리의 1 명의 개인에 의해 크게 약화됩니다. 이 개체를 제거하면 최소 제곱 회귀 기울기가 훨씬 크지 만 회귀 변수의 분산이 줄어들므로 연관성에 대한 유추는 거의 동일합니다. 이 작업을 수행하는 데 어려움은 개인이 제외 될 조건을 미리 지정하지 않았다는 것입니다. 다른 연구자가이 연구 설계를 복제 한 경우, 평균적으로 한 명의 고소득층, 중간 정도의 행복한 개인을 채취하여 "손질 된"결과와 일치하지 않는 결과를 얻습니다.

우리가 있었던 경우 연역적 온건 소득 행복 협회에 관심을, 우리는, 우리가하고자하는 것이 예를 미리 지정된 "적은 $ 100,000 이상 연간 가구 소득을 버는 사람들을 비교"해야합니다. 따라서 특이 치를 제거하면 설명 할 수없는 연관성을 추정 할 수 있으므로 p- 값은 의미가 없습니다.

한편, 잘못 교정 된 의료 기기 및 면밀한 자체보고 설문 조사 거짓말을 제거 할 수 있습니다. 실제 분석을 수행하기 전에 제외 기준을 더 정확하게 설명할수록 그러한 분석 결과가 더 정확하고 일관되게 나타납니다.


왜 " 분석 계획에서 제외 기준을 미리 지정해도 참조 부트 스트랩 샘플링 분포에 제외 된 값을 남겨 두어야 하는지 모르겠습니다 . " "라고 언급 한 이유는 다음과 같은 이유로 전력 손실을 설명하기 때문입니다. 데이터를 샘플링 한 후에 제외를 적용. "나는 왜이 전력의 손실로 리드를 샘플링 한 후 제외 기준을 적용한다고 가정 참조하거나 부트 스트랩 샘플에서 제외 된 경우를 떠나는 이유를 어떻게 /하지 않는다" "차지 (?)이, 더 나아가 왜 이것이 분명히 "고려되어야"하는 것일까. 어쩌면 나는 여기서 밀도가 높습니다.
Jake Westfall


흠, 내 생각은 배제 기준을 미리 지정했다면 특정 유형의 사례에 명시 적으로 관심이 없으며 향후 연구 복제에서도 동일한 배제 기준을 사용할 것입니다. 우리가 추론하고 싶지 않은 모집단의 일부이기 때문에 부트 스트랩 샘플에서 그러한 경우. 나는 다른 비율의 사례를 제외하고 미래의 복제가 어떻게 끝날지 알지만, 우리가 명시 적 으로 관심 있는 경우에 이것이 중요한 이유와 관련이있을 수는 없다 .
Jake Westfall

1
H0

0

이것을 특이한 문제로 보는 것은 나에게 잘못된 것 같습니다. "<10 %의 사용자가 전혀 지출하지 않는 경우"라면 해당 측면을 모델링해야합니다. 토비트 또는 Heckman 회귀는 두 가지 가능성이 있습니다.


2
현재 이것은 답변보다 더 많은 의견입니다. 좀 더 대답하기 쉽도록 조금 확장 하시겠습니까?
gung-모니 티 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.