범주 형 또는 정 성적 변수와 함께 사용할 요약 통계는 무엇입니까?


18

간단히 말하면 요약 통계를 의미 할 때 평균, 사 분위수 범위, 분산, 표준 편차를 나타냅니다.

명목순서를 모두 고려하여 범주 형 또는 정성형 일 변량을 요약 할 때 평균, 중앙값, 사 분위수 범위, 분산 및 표준 편차를 찾는 것이 합리적입니까?

그렇다면 연속 변수를 요약하는 것과 다른 점은 무엇입니까?


2
용어 중 하나를 제외하고 범주 형 변수와 질적 변수의 차이는 거의 없습니다. 어쨌든, 공칭 변수 (예 : 머리카락 색)에서 평균 또는 SD와 같은 것을 계산하는 것은 매우 어렵습니다. 아마도 순서가 지정된 범주 형 변수를 생각하고 있습니까?
chl

아니요, 범주 형 데이터에 순서 또는 순위 수준이있는 경우이 웹 사이트에 따르면 [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] 라고 말하며 " 순서 데이터를 주문하지만 측정하지는 않음 "
chutsu

하지만 내가 틀렸어?
chutsu

답변:


8

일반적으로 대답은 '아니요'입니다. 그러나 서수 데이터의 중앙값을 취할 수 있다고 주장 할 수는 있지만 물론 숫자가 아닌 중앙값으로 범주를 가지게됩니다. 중앙값은 데이터를 똑같이 나눕니다 : 절반 위, 절반 아래. 서수 데이터는 순서에만 의존합니다.

또한, 일부 경우에, 서수는 대략적인 간격 레벨 데이터로 만들어 질 수있다. 서수 데이터를 그룹화하면 (예 : 소득에 대한 질문이 종종 이런 식으로 요청 됨) 사실입니다. 이 경우 정확한 중앙값을 찾을 수 있으며 특히 하한과 상한을 지정한 경우 다른 값을 근사 할 수 있습니다. 각 범주 내에서 일부 분포 (예 : 균일)를 가정 할 수 있습니다. 구간이 될 수있는 서수 데이터의 또 다른 경우는 레벨에 숫자로 동등한 숫자가 제공되는 경우입니다. 예를 들면 : 절대 (0 %), 때로는 (10-30 %), 약 절반 (50 %) 등입니다.

David Cox의 말을 인용하자면 :

일상적인 통계 질문은없고 의심스러운 통계 루틴 만 있습니다


1
당신은 좋은 관련 정보를 제공하지만 chl 질문에 대한 응답으로 OP는 그가 서 수가 아닌 범주 형 데이터에 대해 이야기하고 있음을 분명히했습니다. 따라서 귀하의 답변은 실제로 정답이 아니지만 저는 공감대를 줄 사람이 아닙니다. 그러나 나는 당신이 그것을 의견으로 바꿔야한다고 생각합니다.
Michael R. Chernick

1
아니요, 나는 그것이 제한된 이해에 가치를 더했다고 생각하기 때문에 답을 공감하지 않을 것입니다. 설명에서 서수 및 명목 요약 통계를 모두 고려하고 있음을 분명히 했으므로 결함이 내 것입니다.
chutsu

5

언급 된 바와 같이, 수단, SD 및 힌지 포인트는 범주 형 데이터에 의미가 없다. 힌지 점 (예 : 중앙값 및 사 분위수)은 서수 데이터에 의미가있을 수 있습니다. 제목은 범주 형 데이터를 설명하는 데 어떤 요약 통계를 사용해야하는지 묻습니다. 범주 형 데이터를 카운트 및 백분율로 특성화하는 것이 표준입니다. 백분율에 대해 95 % 신뢰 구간을 포함 할 수도 있습니다. 예를 들어 데이터가 다음과 같은 경우 :

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

다음과 같이 요약 할 수 있습니다.

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

공칭 변수가있는 경우 순서 또는 거리 함수가 없습니다. 그렇다면 언급 한 요약 통계를 어떻게 정의 할 수 있습니까? 나는 당신이 할 수 있다고 생각하지 않습니다. 사 분위수와 범위는 적어도 순서가 필요하며 수단과 분산에는 숫자 데이터가 필요합니다. 막대 그래프와 원형 차트는 순서가 아닌 정 성적 변수를 요약하는 올바른 방법의 전형적인 예라고 생각합니다.


3
@PeterFlom 필자의 요점은 질적 데이터를 요약하기위한 모든 가능한 그래픽 절차를 나열하지는 않았다. 실제로 비교할 수있는 비율과 비율이 범주에 분산되는 방식임을 강조하고 싶습니다. 비율의 차이를 시각적으로 인식하기 위해 막대 차트는 원형 차트보다 시각화하기가 쉽지만 범주 형 데이터를 요약하는 두 가지 일반적인 방법 일뿐입니다. 사용 가능한 모든 방법에 익숙하지 않아서 최고라고 말하고 싶지 않습니다.
Michael R. Chernick

7
그들은 확실히 인기가 있습니다! 그러나 파이 차트의 인기를 떨어 뜨리는 것은 해당 분야의 전문가로서 우리 책임의 일부라고 생각합니다 .
Peter Flom-Monica Monica 복원

3
클리블랜드는 먼저 사람들이 선형 거리보다 각도 측정을 인식하는 데 더 나쁘다는 것을 보여주었습니다. 둘째, 원형 차트에서 색상을 변경하면 조각 크기에 대한 사람들의 인식이 바뀌 었습니다. 셋째, 원형 차트를 회전 시키면 조각의 크기에 대한 사람들의 인식이 바뀌 었습니다. 넷째, 사람들이 크기가 매우 다른 경우가 아니라면 슬라이스를 가장 큰 것부터 가장 작은 것까지 주문하는 데 어려움을 겪었다. 클리블랜드 도트 플롯은이 모든 것을 피합니다.
Peter Flom-Monica Monica 복원

6
@Michael "테이블은 벙어리 원형 차트보다 거의 항상 낫습니다. 원형 차트보다 유일한 나쁜 디자인은 여러 가지입니다. 원형 차트는 사용해서는 안됩니다."-Tufte. "원형 차트로 표시 할 수있는 데이터는 항상 점 차트로 표시 할 수 있습니다. ... 1920 년대 JASA 페이지 에서 원형 차트와 분할 막 대형 차트의 상대적인 장점에 대해 격렬한 전투가 벌어졌습니다. 다른 그래프는 분할 된 막대 차트 나 파이 차트보다 훨씬 더 성능이 뛰어납니다. "-클리블랜드. 아시다시피 클리블랜드는 처방이 아닙니다.
whuber

6
BTW, @Michael, 나는 당신과이 글에서하고있는 주장에 대해 동의합니다. 당신은 입양하고 있습니다. 사이트의 예절을 따르십시오. 주제를 고수하고 다른 사람을 공격하지 마십시오. 심지어 농담 중에도 공격처럼 들릴 수있는 것을 쓰지 마십시오. 물론 동일한 훈계가 모든 사람에게 적용됩니다.
whuber

2

모드는 여전히 작동합니다! 이것이 중요한 요약 통계가 아닙니까? (가장 일반적인 범주는 무엇입니까?) 나는 중앙값 제안이 통계적으로 가치가 거의 없거나 전혀 없다고 생각하지만 모드는 그렇지 않습니다.

또한 별개의 수는 귀중 할 것입니다. (얼마나 많은 카테고리가 있습니까?)

(가장 일반적인 범주) / (가장 낮은 공통 범주) 또는 (# 1 가장 일반적인 범주) / (# 2 가장 일반적인 범주)와 같은 비율을 만들 수 있습니다. 또한 80/20 규칙과 같이 (가장 일반적인 범주) / (다른 모든 범주).

당신은 또한 당신의 카테고리에 숫자를 할당하고 모든 일반적인 통계와 너트를 갈 수 있습니다. AA = 1, Hisp = 2 등입니다. 이제 평균, 중앙값, 모드, SD 등을 계산할 수 있습니다.


0

나는 다른 답변에 감사하지만 일부 토폴로지 배경은 응답에 훨씬 필요한 구조를 제공하는 것으로 보입니다.

정의

도메인 정의를 설정하는 것으로 시작하겠습니다.

  • categorical 형 변수는 도메인에 요소가 포함 된 변수이지만 이들 사이에는 알려진 관계가 없습니다 (따라서 범주 만 있음). 예는 상황에 따라 다르지만 일반적인 경우에는 요일을 비교하기가 어렵습니다. 월요일 전 일요일이면 그렇다면 다음 주 월요일은 어떻습니까? 어쩌면 더 쉽지만 덜 사용되는 예는 옷 조각입니다. 순서에 맞는 문맥을 제공하지 않으면 바지가 점퍼 앞에 오거나 반대인지를 말하기가 어렵습니다.

  • 서수 변수는 도메인에 대해 총 순서가 정의 된 변수입니다 . 즉, 도메인의 두 요소마다 동일하거나 하나가 다른 것보다 크다는 것을 알 수 있습니다. 커트 스케일은 서수 변수의 정의의 좋은 예이다. "약간 동의"는 "동의"보다 "강하게 동의"에 더 가깝습니다.

  • interval 변수는 하나의 도메인으로 요소 사이의 거리를 정의하여 ( metric ) 간격을 정의 할 수 있습니다.

도메인 예

우리가 사용하는 가장 일반적인 집합으로 자연수실수 는 표준 총 주문 및 메트릭을 갖습니다. 그렇기 때문에 카테고리에 숫자를 지정할 때주의해야합니다. 순서와 거리를 무시하지 않으면, 범주 형 데이터를 실제로 간격 데이터로 변환합니다. 기계 학습 알고리즘이 어떻게 작동하는지 모른 채 기계 학습 알고리즘을 사용하는 경우, 그러한 가정을 의도하지 않게하여 잠재적으로 자신의 결과를 무효화 할 위험이 있습니다. 예를 들어, 가장 많이 사용되는 딥 러닝 알고리즘은 간격과 연속 속성을 활용하는 실수로 작동합니다. 또 다른 예는 5 점 리 커트 척도를 고려하고, 우리가 적용한 분석에서 어떻게 거리가 크게 동의 하고 동의 한다고 가정 하는가동일은 그대로 동의 하고 어느 쪽이 동의하지 않고 동의 . 그러한 관계에 대한 사례를 만들기가 어렵습니다.

우리가 자주 사용하는 또 다른 세트는 문자열 입니다. 문자열로 작업 할 때 유용한 여러 문자열 유사성 메트릭 이 있습니다. 그러나 이것들이 항상 유용한 것은 아닙니다. 예를 들어, 주소의 경우, John Smith Street와 John Smith Road는 문자열 유사성 측면에서 상당히 가깝지만 분명히 서로 다른 두 개의 엔티티를 나타냅니다.

요약 통계

자, 이제 몇 가지 요약 통계가 어떻게 적용되는지 봅시다. 통계는 숫자와 함께 작동하므로 해당 함수는 간격에 따라 잘 정의됩니다. 그러나 범주 형 또는 서수형 데이터로 일반화 할 수 있는지 여부에 대한 예를 살펴 보겠습니다.

  • 모드 -범주 및 서수 데이터로 작업 할 때 가장 많이 사용되는 요소를 알 수 있습니다. 우리는 이것을 가지고 있습니다. 그런 다음 @Maddenker가 답변에 나열한 다른 모든 측정 값을 도출 할 수도 있습니다. @gung의 신뢰 구간도 유용 할 수 있습니다.
  • 중앙값 -@ peter-flom이 말했듯이 주문이있는 한 중앙값을 얻을 수 있습니다.
  • mean 뿐만 아니라 표준 편차, 백분위 수 등-거리 메트릭이 필요하기 때문에 간격 데이터로만 얻을 수 있습니다.

데이터 컨텍스트의 예

마지막으로, 데이터에 정의한 순서와 측정 항목이 매우 문맥적임을 다시 강조하고 싶습니다. 지금까지는 분명하지만 마지막 예를 들어 보겠습니다. 지리적 위치로 작업 할 때는 여러 가지 방법으로 접근 할 수 있습니다.

  • 우리가 그들 사이의 거리에 관심이 있다면, 우리는 그들의 지리적 위치를 사용할 수 있습니다.
  • 관계 의 일부에 관심이 있다면 , 총 질서를 정의 할 수 있습니다 (예 : 거리는 도시의 일부, 두 도시는 동일하며 대륙에는 국가가 포함됨)
  • 두 문자열이 동일한 주소를 나타내는 지에 관심이 있다면 철자 실수와 단어의 위치를 ​​바꾸는 문자열 거리를 사용할 수 있지만 다른 용어와 이름을 구별해야합니다. 이것은 쉬운 일이 아니라 단지 사례를 만드는 것입니다.
  • 우리 모두가 매일 마주 치는 다른 많은 사용 사례가 있습니다. 그중 일부에서는 주소를 다른 범주로 취급하는 것 외에는 할 일이 없으며, 다른 것에서는 매우 스마트 한 데이터 모델링 및 전처리가 필요합니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.