때 통계적 연계가 순진하게 거부되지 않는 이유를 설명 할 수 있습니까 ?


12

통계 통계를 순진하게 선언하기 위해 폴링에서보고 된 오류 한계 (MOE) 통계를 사용하는 것이 일반적으로 잘못된 이유를 설명하고 기본 통계 텍스트, 논문 또는 기타 참조를 인용하는 데 도움이 필요합니다.

예 : 설문 조사에서 후보 리드 후보 B, %로 마진의 오류에 대한 조사 유권자.39314.5%500

내 친구의 이유는 다음과 같습니다.

복잡한 통계 모델링으로 인해 오차 한계는 A의 실제 지원이 34.5 %로 낮고 B가 35.5 %로 높을 수 있음을 의미합니다. 따라서 A와 B는 실제로 통계 열에 있습니다.

내 친구의 추론 결함을 분명히 표현하는 데 도움이되었습니다. p_A-p_B <2MOE 인 경우 가설 "A lead B"를 순진 히 거부하는 것이 잘못되었다고 설명하려고했습니다 pApB<2MOE.


제대로 MOEs을 결합하는 방법을 포함하여이에 대한 자세한 논의는 다음을 참조 stats.stackexchange.com/questions/18215을 .
whuber

답변:


7

답변에 대한 첫 번째 시도에 결함이있었습니다 (결함이있는 답변은 아래 참조). 결함이있는 이유는보고 된 오류 마진 (MOE)이 후보의 폴링 백분율에는 적용되지만 백분율 차이에는 적용 되지 않기 때문입니다. 두 번째 시도는 OP가 제기 한 질문을 조금 더 잘 해결합니다.

두 번째 시도

OP의 친구 이유는 다음과 같습니다.

  1. 주어진 MOE를 사용하여 후보 A와 후보 B에 대한 신뢰 구간을 별도로 구성하십시오.
  2. 그것들이 겹치면 통계적으로 죽은 소리가 들리지 않으면 A가 현재 B를 이깁니다.

여기서 주요 문제는 첫 번째 단계가 유효하지 않다는 것입니다. 두 후보에 대한 폴링 백분율이 종속 랜덤 변수이므로 두 후보에 대해 독립적으로 신뢰 구간을 구성하는 것은 올바른 단계가 아닙니다. 다시 말해, A에 투표하지 않기로 결정한 유권자는 B 대신에 투표하기로 결정할 수도 있습니다. 따라서 리드가 중요한지 여부를 평가하는 올바른 방법은 차이에 대한 신뢰 구간을 구성하는 것입니다. 일부 가정 하에서 폴링 백분율차이에 대한 표준 오류를 계산하는 방법에 대한 위키를 참조하십시오 .

아래의 잘못된 답변

내 의견으로는 폴링 결과를 생각하는 '올바른'방법은 다음과 같습니다.

500 명의 유권자 설문 조사에서 8 %의 높은 차이가 5 %보다 클 가능성이 높습니다.

'A 리드 B'또는 'A 타이 B'라고 생각하는지 여부는 컷오프 기준으로 5 %를 기꺼이 수용 할 정도에 달려 있습니다.


@Srikvant. 5 %가 수용 가능한 유의성이라고 가정하십시오. 더 정확한 답을 찾고 있는데, "A lead B"는 새로운 통계, pA와 pB의 차이, 그리고 해당 신뢰 구간은 단순히 2 * MOE가 아니라는 아이디어를 제공합니다.

4

신뢰 구간보다는 표준 편차로 설명하기가 더 쉽습니다.

친구의 결론은 기본적으로 간단한 무작위 샘플링과 두 개의 후보가 있는 가장 간단한 모델 에서 정확 합니다 . 이제 샘플 비율 은 되도록 충족 . 따라서 이므로 이 간단한 관계를 가능 하게하는 것은 일반적으로 이기 때문에 와 는 음의 상관 관계가 pA+pB=1pB=1pA

Var(pApB)=Var(2pA1)=4Var(pA)
SD(pApB)=2SD(pA).
pApB
Var(pApB)=Var(pA)+Var(pB)2Cov(pA,pB).

이 간단한 모델 을 제외하고 이 일반적으로 유지되지 않으면 오차 한계에 포함되지 않은 와 간의 상관 관계를 고려해야합니다 . 그것은 가능하다 .p A p B S D ( p Ap B ) 2 S D ( p A )pA+pB=1pApBSD(pApB)2SD(pA)

그러나이 모든 미묘한 차이는 여론 조사 기관이 차이에 대한 오차 한계를보고해야한다는 것을 나타내는 것으로 보인다. 네이트 실버 어 Where 어?


4

그것은 용어를 표현하는 나쁜 방법 일뿐만 아니라 통계적인 데드 히트조차 아닙니다.

그런 식으로 겹치는 신뢰 구간을 사용하지 않습니다. 후보 A가 이길 것이라고 말하고 싶다면 후보 A가 확실히 선두에 있습니다. 리드는 8 % MOE 6.4 %입니다. 해당 빼기 점수의 신뢰 구간은 개별 점수의 신뢰 구간의 두 배가 아닙니다. 이는 각 추정치 주변의 CI (± MOE) 중첩이 죽은 열이라고 주장함으로써 암시됩니다. 동일한 N과 분산을 가정하면 차이의 MOE는 sqrt (2)에 4.5를 곱한 것입니다. 값 간의 차이를 찾는 것은 분산 (SD 제곱)의 두 배에 불과하기 때문입니다. 신뢰 구간은 분산의 sqrt를 기반으로하므로이를 합한 평균 (4.5) * sqrt (2)입니다. 8 % 리드의 MOE가 약 6.4 %이므로 후보 A가 리드에 있습니다.

제쳐두고, MOE는 매우 보수적이며 50 %의 선택 가치를 기반으로합니다. 공식은 sqrt (0.25 / n) * 2입니다. 우리가 사용할 수있는 차이 점수의 표준 오차를 계산하는 공식이 있습니다. 우리는 50 % 컷오프가 아니라 찾은 값을 사용하여 후보 A (7.5 % MOE)에 대한 상당한 우위를 제공한다고 적용합니다. 나는 질문자들의 의견과 그 컷오프가 선택된 가상의 것에 근접해 있다고 믿었을 것이다.

신뢰 구간과 권한에 대한 모든 소개가 여기에 도움이 될 것입니다. MOE에 대한 wikipedia 기사조차도 꽤 좋아 보인다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.