범주 형 데이터를 요약하는 방법?


13

나는 다음과 같은 문제로 어려움을 겪고 있기 때문에 통계 학자에게는 쉬운 일입니다 (통계에 약간 노출 된 프로그래머입니다).

설문에 대한 답변을 (관리를 위해) 요약해야합니다. 설문 조사에는 100 개 이상의 질문이 있으며, 여러 영역으로 그룹화되어 있습니다 (영역 당 약 5-10 개의 질문). 모든 답변은 범주 형입니다 (서수 척도에서는 "아무도", "드물게"... "매일 또는 더 자주"와 같습니다).

경영진은 각 영역에 대한 요약을 얻고 싶습니다. 이것이 내 문제입니다. 관련 질문 내에 범주 형 답변을 집계하는 방법은 무엇입니까? . 질문이 너무 많아서 각 영역에 대한 그래프 나 격자 그림을 만들 수 없습니다. 예를 들어 숫자가있는 테이블과 비교할 때 가능한 시각적 접근 방식을 선호합니다 (알라, 그들은 읽지 않습니다).

내가 생각 해낼 수있는 유일한 것은 각 영역의 답변 수를 세고 히스토그램을 그리는 것입니다.

범주 형 데이터에 사용할 수있는 다른 것이 있습니까?

나는 R을 사용하지만 그것이 관련이 있는지 확실하지 않다면 이것이 일반적인 통계 질문이라고 생각합니다.


PCA / FA는 어떻습니까? 상관 변수를 요인으로 축소하고 거기서부터 작업 할 수 있습니다.
Roman Luštrik

경영진이 '집계 된 숫자를 어떻게 얻었습니까?'라고 물으면 이것은 너무 많은 것일 수 있습니다. 그들은 더 간단한 기술을 원하므로 이해할 수 있습니다. 아아, 현실 세계 :-( 그래도 감사합니다.
wishihadabettername

답변:


10

실제로 답변하려는 질문이 무엇인지 또는 경영진이 가장 관심있는 질문을 파악해야합니다. 그런 다음 문제와 가장 관련이있는 설문 조사 질문을 선택할 수 있습니다.

문제 나 데이터 집합에 대해 전혀 모른 채 일반적인 해결책은 다음과 같습니다.

  • 답을 군집으로 시각적으로 나타냅니다. 내가 가장 좋아하는 것은 덴드로 그램을 사용하거나 xy 축에 플로팅하는 것입니다 (Google "클러스터 분석 r"및 statmethods.net의 첫 번째 결과로 이동)
  • 가장 큰 답변부터 최소 "매일 또는 더 자주"답변까지의 질문에 순위를 매기십시오. 이것은 당신에게 정확하게 작동하지 않을 수도 있지만 아마도 당신에게 영감을 줄 것입니다 http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • 크로스 탭 : 예를 들어, "근무 늦게 출근하는 빈도는?"이라는 질문이 있습니다. 두 가지 질문을 크로스 탭하여 "얼마나 자주 Facebook을 사용하십니까?"라는 두 질문을 건너 뛰어 두 사람 모두 거의 사용하지 않거나 매일 두 사람 모두를 찾는 비율을 확인할 수 있습니다 (Google "r 주파수 교차 분석"또는 위에서 언급 한 statmethods.net으로 이동 )
  • 상관 관계. 나는 이것에 대한 경험이 없지만 statmethods.net 웹 사이트에서도 그것을 보았습니다. 기본적으로 상관 관계가 가장 높은 질문을 찾은 다음 테이블을 만듭니다. "사용 중"처럼 보이지만이 기능이 유용 할 수 있습니다.

이것을 답변으로 표시하겠습니다. 몇 가지 좋은 제안이 있으므로 적용 방법을 생각할 것입니다.
wishihadabettername


8

표준 옵션은 다음과 같습니다.

  • 척도 내의 항목에 대한 평균 얻기 (예 : 척도가 1 ~ 5 인 경우 평균은 1 ~ 5)
  • 각 항목을 이진 측정 값으로 변환 (예 : item> = 3, 1, 그렇지 않으면 0) 한 다음이 이진 반응의 평균을 취합니다.

조직의 항목과 많은 수의 사람들에 대해 집계하는 경우, 위의 두 가지 옵션 (예 : 평균 1-5 또는 점 위의 백분율 평균)은 조직 수준에서 신뢰할 수 있습니다 ( 여기 참조) 추가 토론 ). 따라서 위의 옵션 중 하나는 기본적으로 동일한 정보를 전달합니다.

일반적으로 항목이 범주 형이라는 사실에 대해 걱정하지 않습니다. 항목을 집계하여 스케일을 생성 한 다음 응답자 샘플을 집계 할 때 스케일은 연속 스케일에 가까운 근사값이됩니다.

경영진은 하나의 메트릭을보다 쉽게 ​​해석 할 수 있습니다. 교육 품질 점수 (즉, 평균 학생 만족도 점수가 100 명이라고 함)를 받으면 1-5 점의 평균이며 괜찮습니다. 해마다 저의 점수를보고 대학에 대한 몇 가지 규범을 본 후 몇 년 동안 저는 다른 가치가 무엇을 의미하는지에 대한 기준 틀을 개발했습니다. 그러나 경영진은 종종 진술을지지하는 비율 또는 의미가 평균 비율 인 경우에도 긍정적 인 반응의 비율에 대해 생각하기를 원합니다.

주요 과제는 점수에 대한 실질적인 기준 프레임을 제공하는 것입니다. 경영진은 숫자가 실제로 무엇을 의미하는지 알고 싶어 할 것 입니다. 예를 들어, 척도에 대한 평균 반응이 4.2 인 경우 그 의미는 무엇입니까? 좋은가요? 나쁜가요? 괜찮아?

여러 해에 걸쳐 또는 다른 조직에서 설문을 사용하는 경우 몇 가지 규범을 개발하기 시작할 수 있습니다. 규범에 대한 접근은 조직이 외부 측량 제공자를 얻거나 표준 측량을 사용하는 이유 중 하나입니다.

계수에 항목을 할당하는 것이 경험적으로 정당한지 확인하기 위해 요인 분석을 실행할 수도 있습니다.

시각적 접근의 관점에서 x 축의 스케일 유형과 y 축의 점수를 가진 간단한 선 또는 막대 그래프를 가질 수 있습니다. 규범적인 데이터가있는 경우이를 추가 할 수도 있습니다.


1

예. 클러스터링은 이해와 관리 프레젠테이션 모두에 대한 설문 조사 데이터를 줄이기 위해 데이터 축소에 매우 효과적인 접근 방식입니다.

잠재 등급 분석 (응답 척도를 서수로 처리) 또는 k- 평균 (연속으로 처리)은 정보 압축 형식으로 볼 수 있습니다 . 응답자를 가장 가능성이 높은 세그먼트로 분류하면 일반적으로 응답 측면에서 프로파일 링 할 때 직관적 인 설명이있는 범주 형 변수가 생성됩니다.

그런 다음 세그먼트 이름을 지정하고 해당 변수를 요약 레벨 분석 및 프리젠 테이션에 사용할 수 있습니다.

관련 항목 그룹 (예 : 아래) 또는 가능하면 모두에 클러스터를 설치하십시오.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

나는 종종 LatentGold를 사용하지만 SAS의 FASTCLUS가 좋은 편이라고 생각합니다.

그렇게하기 전에, 각 개인의 척도 사용 (논쟁이지만 실용적)에 대한 반응을 조정하는 것이 좋습니다. 어떤 사람들은 스케일의 한쪽 끝에 기대어 부정적이거나 긍정적 인 것을 피합니다. 원시 응답을 클러스터링하면 일반적으로 사람들을 해당 동작으로 나누는 경향이 있습니다.

각 응답자의 답변을 자신의 평균과 클러스터링으로 표준화하면 종종 매우 흥미로운 방식으로 함께 움직이는 변수가 노출됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.