설문 조사 : 대규모 사용자 기반의 25 %가 대표입니까?


13

내 고용주는 현재 사무실에 대한 태도, 즉 감정에 대한 회사 차원의 설문 조사를 진행하고 있습니다. 과거에는 비즈니스의 모든 영역 (10 개의 매우 다른 부서로 가정)과 그 내부의 모든 직원에 대해 설문 조사를 열었습니다 (회사 전체에서 총 1000 명으로 가정) 각 부서의 직원 수는 같지 않으며 1 명 특정 부서는 전체 조직의 50 %를 차지할 것입니다.

올해 설문 조사는 총 직원 수의 25 %까지만 열리고 선택은 '무작위'입니다

따라서 두 가지 쿼리가 있습니다.

  • 전체 직원 기반을 실제로 무작위로 선택하는 경우 모든 직원이 응답한다고 가정하면 통계적으로 유효한 표본은 어떻게 되나요?

  • 부서별 수준 (예 : 각 부서의 25 %)에서 무작위 인 경우 한 부서를 고려한 유효한 표본이 전체 모집단의 50 %를 초과하는 방법은 무엇입니까?

나는 회사에서 과반수의 감정을 결정하기 위해서는 진정한 독서 정서를 제공하기 위해 각 부서의 직원 기반의 최소 50 %가 필요하다고 가정했을 것입니다.

업데이트 : 설문 조사가 시행되지 않습니다. 선택한 25 %에서 100 % 응답 속도를 보장 할 수는 없습니다. 설문 조사가 작성되거나 작성되지 않은 경우 인센티브 또는 처벌 적 수단이 없습니다.


2
설문 조사를 필요한만큼 작게 (질문의 수 / 유형) 만드는 것이 좋습니다. 그런 다음 직원 / 관리자에게 시간을 낭비한다고 불평하지 않도록 필요한만큼만 설문 조사를 작성하십시오. 사람들이 스스로 선택한다면 그것은 어떤 형태의 체계적인 편견을 보장합니다.
Nick T

정규 분포를 따르는 일부 변수의 평균을 측정하는 경우 약 20 개의 반응 후 +/- 간격의 크기가 대략적으로 증가합니다 1/sqrt(# responses). 예를 들어 20 개의 응답이 있습니다 +/- .468 * sigma. 100 개의 응답으로 +/- .198 * sigma. 1000 개의 응답으로 +/- .062 * sigma.
Pace

답변:


22

미국의 일반적인 인구 조사에 대해 생각해보십시오. 대다수의 의견을 결정하기 위해 인구의 50 %가 필요하다면 약 1 억 6 천만 건의 표본이 필요합니다. 1 % 샘플조차도 극심한 (약 320 만 건) 거의 이루어지지 않습니다. 미국의 일반 사회 설문 조사에서 중요한 설문 조사의 표본 크기는 1,500에서 3,000 사이입니다. 따라서 25 % 샘플 자체는 문제가되지 않습니다.

설문 조사는 선거 나 국민 투표가 아닙니다. 후자가 합법적이 되려면 모든 유자격자가 자신의 의견을들을 기회가 있어야합니다. 설문 조사의 목적은 평균 의견에 대한 적절한 추정치를 얻는 것이며 무작위 표본으로 얻을 수 있습니다. 따라서 회사는 설문 조사의 목적이 무엇인지 결정해야합니다. 직원이 의견을 제시하고 회사에 참여하는 방법입니까, 아니면 관리자가 정보를 얻는 방법입니까?

두 가지 샘플링 설계 모두 직원의 25 %가 요구됩니다. 후자는 소규모 부서가 설문 조사에 표시되도록합니다. 표준 오류에 신경 쓰면 샘플링의 중첩 특성을 고려해야하지만이 경우 큰 문제가 될 것이라고는 생각하지 않습니다.


2
+1이지만 "평균 의견"에 관심이 없다면 더 큰 표본이 ​​필요할 수 있음을 강조 할 가치가 있습니다.
Tim

1
답변 감사합니다. 그러나 그것은 내가 빠진 것이었고, 조사는 시행되지 않았습니다. 25 %만이 요청을받을 것이지만, 답변 할 의무는 없습니다.
Colin

2
그것은 또한 정상입니다. 설문 조사에 응시하면 사람들에게 답변을 강요하기가 어려울 것입니다. 나는 응답자를 "설득"하기 위해 깡패를 고용하려고 시도했지만, 그것은 윤리적이고 합법적 인 결과를 초래할 것입니다.
Maarten Buis 2016 년

7

어원으로 " 측량 "( sur-'위에서'와 -vey'보기'에서 와 같이 '슈퍼'에서 ) 은 전체 그림이 아니라 개요 를 얻는 것을 의미합니다 .

25 %가 실제로 무작위적이고 자체 선택 (선택)되지 않는 한, 용어의 정의를 충족시킵니다. 설문 조사가 선택 사항 인 경우 답변이 필요한 사람 만 답변합니다. 예를 들어, 식사 후에 피드백 카드를 작성할 수있는 식당을 상상해보십시오. 대부분의 식당이 만족하더라도 행복 고객은 피드백을 제공 할 이유가 거의 없기 때문에 대부분의 피드백은 부정적입니다.


1
'자기 선택'의 효과를 확대 할 수 있습니까? 이 설문 조사는 시행되지 않으며, 전적으로 선택 사항이며, 작성하거나 작성하지 않으면 인센티브 또는 처벌 적 수단이 없습니다. 시작 질문을 업데이트하겠습니다.
Colin

6
@Colin : 설문 조사가 선택 사항 인 경우, 답변은 답변이 필요한 사람들 만 대표합니다. 예를 들어, 식사 후에 피드백 카드를 작성할 수있는 식당을 상상해보십시오. 대부분의 식당이 만족하더라도 행복 고객은 피드백을 제공 할 이유가 거의 없기 때문에 대부분의 피드백은 부정적입니다.
dotancohen

1
@ dotancohen 나는 대답이 포함 된이 의견에서 많은 이점을 얻을 것이라고 생각합니다.
Pere

@ Pere : 감사합니다. 댓글에 답을 넣으면 어원 적 관점에서 벗어날 수 있습니다. 하지만 당신 말이 맞아요 그리고 그것을 추가하고 있습니다.
dotancohen

4

또 다른 관점은 실험 설계 이론에서 비롯됩니다.

통계적 검정력은 실제 효과 인 경우 효과를 찾을 확률입니다 ( source )

네 가지 요인이 전력에 영향을 미칩니다.

  1. 효과의 크기
  2. 특성의 표준 편차
  3. 더 큰 샘플 크기
  4. 원하는 유의 수준

이러한 요소를 기반으로 검정력, 표본 크기, 효과 크기, 표준 편차 및 유의 수준 ( source ) 과 관련된 공식적인 수학 방정식을 작성할 수 있습니다.

일련의 가정 하에서 설문을 실험으로 특성화하고 실험 프레임 워크의 설계를 활용할 수 있습니다 ( 여기 에 몇 가지 예가 있습니다). 많은 교육받은 추측이 있습니다. 그러나 불완전한 모델은 전혀없는 모델보다 낫습니다.


3

두 가지 질문이 있습니다. 표본 크기 (25 %, 대다수는 아님)와 표본 추출 기법 (실제로 무작위, 전체 회사에서 무작위로 25 % 표본, 모든 부서에서 무작위로 표본 25 % 또는 다른 분포를 사용하는 것)에 대한 표본 중 하나입니다.

1) 표본 크기는 과반수 일 필요는 없습니다. 필요한 표본 크기는 주어진 신뢰도 또는 가능성 비율에 필요한 정확도에 따라 0에서 100 % 사이의 값이 될 수 있습니다.

100 % 확실성은 결코 얻지 못합니다 (50 % 이상의 부분 집합도 아님). 이러한 높은 정확도를 달성하는 것도 샘플링 및 추정의 요점이 아닙니다.

샘플 크기에 대한 자세한 내용은 https://en.wikipedia.org/wiki/Sample_size_determination를 참조하십시오.

많은 수의 법칙을 얻는다면 직관적 인 아이디어가있을 수도 있습니다.

서브 세트의 크기가 증가하면 가능한 모든 서브 세트의 평균 분포 (및 샘플이 그 중 하나가 됨)가 작아지고 원래 분포의 평균에 가까워집니다. 한 사람을 선택하면 예외를 발견 할 가능성이 있지만 동일한 방향으로 같은 예외를 두 번 찾을 가능성은 줄어 듭니다. 또한 샘플링 된 서브 세트의 크기가 클수록 예외적 인 서브 세트의 가능성이 줄어 듭니다.

n

중요 사항! 추정치는 표본을 추출한 모집단 의 크기 가 아니라 해당 모집단 의 분포 에 따라 달라집니다 .

당신의 500 크기 부서의 경우. 크기가 125 인 임의의 부분 집합의 평균 편차는 원래 편차보다 11 배 작습니다. 측정 오류 (임의로 선택된 하위 집합의 평균 편차)는 부서의 크기와 무관합니다. 500, 5000 또는 50000 일 수 있습니다. 모든 경우에 동일한 분포를 갖는 한 추정값은 영향을받지 않습니다 (이제 작은 부서에 이상한 분포가있을 수 있지만 더 큰 그룹에서는 사라지기 시작합니다).

2) 샘플링은 완전히 무작위 일 필요는 없습니다 . 인구 통계를 고려할 수 있습니다.

결국 각 부서를 개별적 으로 이러한 분석 방식으로 처리하고 부서 간 차이와 서로 다른 규모의 부서에서 샘플링 한 방법을 수정합니다.

이 수정에는 두 가지 중요한 차이점이 있습니다. 그룹 간 분포를 임의 변수로 가정 할 수 있습니다. 변수를 랜덤 변수로 취급하면 분석이 더 강력 해지지 만 (모델에서 자유도를 얻음) 다른 그룹이 특정 효과없이 랜덤 엔티티로 교환 할 수없는 경우 잘못된 가정 일 수 있습니다. 귀하의 경우, 부서마다 기능이 다르고 부서와 관계없이 무작위가 아닌 다른 감정을 가질 수 있습니다).


1
답변 감사합니다. 그러나 그것은 내가 빠진 것이었고, 조사는 시행되지 않았습니다. 25 %만이 요청을받을 것이지만, 답변 할 의무는 없습니다.
Colin

1
그런 다음 샘플링 기술과 데이터 수집 방법에 대한 추가 세 번째 질문이 있습니다. 이러한 문제에 대해, 무응답 및 데이터의 다른 품질 측면을 다루는 방법에는 단일 답변이 없습니다. 응답에 큰 문제가있는 경우 (50 % 또는 25 %를 요구하는) 어쨌든 통계 분석에 대한 논의는 2 차적으로 중요합니다. 더 많은 샘플링 (예 :> 50 % 요청) 으로이 연구를 많이 개선하지는 않으며 좋은 샘플링 에 집중하는 것이 좋습니다 .
Sextus Empiricus 2016 년

2

귀하의 질문은 유한 모집단의 표본 크기에 관한 것입니다. 그러나 가장 먼저 필요한 것은 무한 모집단에 필요한 표본 크기입니다. 그런 다음 유한 모집단의 표본 크기를 계산하는 데 사용할 수 있습니다.

n=(z2pq)/d2
n
z2
p
q=1p
d2

(1.96×0.5×0.5)/0.032=1,068

m=n/(1+((n1)/N))
m
n
N

N=1,0001068/(1+((10681)/1000))=517

모집단의 25 %를 사용하면 오류 수준이 5.4 %로 나타납니다. 이 오류 수준은 이전 설문 조사에 따라 양호 할 수 있습니다. 설문 조사에는 항상 수용하려는 오류 수준과 설문 조사 비용 사이에 상충 관계가 있습니다.

517/0.65=796

인구를 부서별로 나누려면 (계층화라고 함) 상황이 더 복잡해집니다. 기본적으로 데이터가 각 부서에 정확하도록하려면 각 부서를 별도의 유한 모집단으로 취급해야하는데 이는 실용적이지 않을 수 있습니다. 그러나 간단한 무작위 표본 대신 계층화 된 무작위 표본을 수행 할 수 있습니다. 여기서 표본의 50 %가 모집단의 50 %를 가진 부서에서 무작위로 선택되고 다른 부서에서 무작위로 적절한 비율이 샘플링됩니다. 소수점 이하 자릿수를 모두 반올림해야하기 때문에 표본 크기가 약간 증가한다는 것을 의미합니다 (사람의 0.1을 조사 할 수 없음). 그러나 각 부서의 응답이 충분하지 않기 때문에 결과는 부서 수준이 아닌 인구 (회사) 수준에서 조사해야합니다.


1

유효한 표본에 대해 이야기하는 동안 기본 개념은 일반적으로 표현 중 하나입니다. 표본이 모집단을 적절하게 "표현"합니까? 대표 표본을 얻기 위해서는 표본의 크기가 적절한 지 (추정의 분산을 줄이기 위해) 확인하고 표본에 다른 유형의 행동을 나타내는 모집단의 하위 집합에 속하는 구성원이 포함되어 있는지 확인해야합니다. 고려.

첫째, 설문 조사 대상으로 선택된 사용자의 비율은 선택된 절대 사용자 수에 비해 덜 중요합니다. 필요한 표본 크기는 주어진 답의 정확도 또는 신뢰 구간 요구 사항에 따라 다릅니다. 자세한 내용은 기사를 읽으십시오 .

회사는 여러 부서로 구성되어 있습니다. 부서마다 설문에 대한 응답이 다를 가능성이 있습니까? 그들이 (또는 당신이 확실하지 않은 경우), 부서 전체에 걸쳐 샘플을 "계층화"하는 것이 좋습니다. 가장 간단한 형태로, 이것은 모든 부서에서 동일한 비율의 사람들을 고르는 것을 의미합니다. 예 : 회사 규모는 1000이고 선택한 표본 크기는 100입니다. 그런 다음 크기가 500 인 부서에서 50을 선택하고 크기가 100 인 부서에서 10을 선택합니다. 이는 특정 부서가 특정 "무작위"샘플.

또한 모든 사람이 설문에 응답 할 수있는 것은 아닙니다. 대략 절반의 사람들이 응답 할 것임을 알고 있다면 100 개의 응답을 받으려면 설문을 200 명의 사람들에게 보내야합니다. 그러한 응답이 편향 될 수있는 가능성을 고려해야합니다. 특정한 반응을 보이는 사람들은 대답하기가 더 많거나 적을 수 있습니다.


1

전체 직원 기반을 실제로 무작위로 선택하는 경우 모든 직원이 응답한다고 가정하면 통계적으로 유효한 표본은 어떻게 되나요?

설명하고자하는 모집단에서 추출한 것이라면 유효한 샘플입니다. 즉, 보스 만 샘플링하는 경우 다른 직원에 대해서는 아무 것도 말할 수 없습니다. 설명 된 설정에서는 발생하지 않습니다. 그러나 무응답으로 인해 발생할 수 있습니다 (아래에 더 자세히 설명되어 있음).

부서별 수준 (예 : 각 부서의 25 %)에서 무작위 인 경우 한 부서를 고려한 유효한 표본이 전체 모집단의 50 %를 초과하는 방법은 무엇입니까?

이것은 더 이상 샘플 유효성 문제가 아니라 샘플링 오류 중 하나입니다. 분명히, 가장 정확한 추정치는 계층화 된 무작위 추첨에서 얻을 수 있으며, 계층은 적어도 부서 수준을 포함합니다. 이러한 설정에서는 각 부서에 대해 유효한 샘플이 있지만 소규모 부서에 대한 추정치는 일반적으로 큰 부서에 대한 추정치보다 높기 때문에 큰 부서에 대한 추정치보다 정확도가 떨어집니다. 전체 조직의 경우 더 큰 부서의 표본 표현이 높을수록 조직의 현실이 반영되며 표본의 유효성이 결코 저하되지 않습니다.

설문 조사는 시행되지 않습니다. 선택한 25 %에서 100 % 응답 속도를 보장 할 수 없습니다. 설문 조사가 작성되거나 작성되지 않은 경우 인센티브 또는 징벌 수단이 없습니다.

다른 사람이 좋은 답변을하도록 강요 할 수는 없지만 답변 미리 알림 계획을 구현하는 것이 최소한입니다. 또한 설문 조사와 관련하여 설문 조사의 관련성과 직원이 조직에 미칠 수있는 영향을 설명해야합니다. 예 : 결과는 언제 발표됩니까? 설문 조사에 따라 조직이 수행 할 수있는 잠재적 조치는 무엇입니까? 각 답변이 왜 중요한가요?

데이터가 수집되면 비 응답 문제를 해결해야합니다. 이에 대처한다는 것은 먼저 비 응답 행동을 분석하여 잠재적 인 패턴을 감지해야한다는 것을 의미합니다. 보스가 응답하지 않았습니까? 주어진 부서가 전혀 응답하지 않았습니까? 그런 다음 필요한 전략 (포스트 스트 래피 네이션, 리 웨이팅, 대치 등)을 채택하십시오.


1

@ICannotFixThis에서 확장하고 있습니다.이 네 가지 요인이 어떻게 중요한지에 대한 예를 들어보십시오.

  1. 효과의 크기
  2. 특성의 표준 편차
  3. 더 큰 샘플 크기
  4. 원하는 유의 수준

이러한 요소가 결과에 미치는 영향은 사용중인 통계에 따라 다릅니다. 예를 들어, 어떤 변수의 평균을 추측하려면 Student 's T Test를 사용할 수 있습니다 .

이 설문 조사를 통해 직원의 평균 신장을 계산한다고 가정 해 봅시다. 실제로 모든 직원을 측정하지 않고 회사의 모든 직원의 신장에 대한 표준 편차를 모르지만 3 인치에서 조사하고 추측 할 수 있습니다 (미국의 남성의 경우 표준 신장의 표준 편차 임).

5 명만 조사한 경우 설문 조사에서 관찰 한 평균 높이가 실제 평균 높이의 3.72 인치 내에있는 시간의 95 %입니다.

이제 우리의 요인이 어떻게 영향을 미칩니 까?

  1. 평균 높이를 매우 정확하게 알아야하는 경우 (예 : 효과 크기가 매우 작음) 많은 수의 샘플이 필요합니다. 예를 들어, 2.66 인치 내에서 실제 평균 높이를 알기 위해서는 100 명을 조사해야합니다.

  2. 표준 편차가 크면 얻을 수있는 정밀도가 제한됩니다. 표준 편차가 3 인치가 아닌 6 인치이고 여전히 5 개의 응답이있는 경우 실제 평균 높이가 3.72 인치가 아닌 7.44 인치 내에서만 알 수 있습니다.

  3. 전체 토론의 초점이므로이 점을 건너 뜁니다.

  4. 정답이 있는지 확인해야하는 경우 더 많은 사람들을 조사해야합니다. 이 예에서는 5 개의 응답으로 시간의 95 %에서 3.72 인치 내에 도달 할 수 있음을 확인했습니다. 우리가 정답이 99 %의 정확한 범위 내에 있는지 확인하려면 3.72 인치가 아닌 6.17 인치입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.