간단히 말하면 요약 통계를 의미 할 때 평균, 사 분위수 범위, 분산, 표준 편차를 나타냅니다.
명목 및 순서를 모두 고려하여 범주 형 또는 정성형 일 변량을 요약 할 때 평균, 중앙값, 사 분위수 범위, 분산 및 표준 편차를 찾는 것이 합리적입니까?
그렇다면 연속 변수를 요약하는 것과 다른 점은 무엇입니까?
간단히 말하면 요약 통계를 의미 할 때 평균, 사 분위수 범위, 분산, 표준 편차를 나타냅니다.
명목 및 순서를 모두 고려하여 범주 형 또는 정성형 일 변량을 요약 할 때 평균, 중앙값, 사 분위수 범위, 분산 및 표준 편차를 찾는 것이 합리적입니까?
그렇다면 연속 변수를 요약하는 것과 다른 점은 무엇입니까?
답변:
일반적으로 대답은 '아니요'입니다. 그러나 서수 데이터의 중앙값을 취할 수 있다고 주장 할 수는 있지만 물론 숫자가 아닌 중앙값으로 범주를 가지게됩니다. 중앙값은 데이터를 똑같이 나눕니다 : 절반 위, 절반 아래. 서수 데이터는 순서에만 의존합니다.
또한, 일부 경우에, 서수는 대략적인 간격 레벨 데이터로 만들어 질 수있다. 서수 데이터를 그룹화하면 (예 : 소득에 대한 질문이 종종 이런 식으로 요청 됨) 사실입니다. 이 경우 정확한 중앙값을 찾을 수 있으며 특히 하한과 상한을 지정한 경우 다른 값을 근사 할 수 있습니다. 각 범주 내에서 일부 분포 (예 : 균일)를 가정 할 수 있습니다. 구간이 될 수있는 서수 데이터의 또 다른 경우는 레벨에 숫자로 동등한 숫자가 제공되는 경우입니다. 예를 들면 : 절대 (0 %), 때로는 (10-30 %), 약 절반 (50 %) 등입니다.
David Cox의 말을 인용하자면 :
일상적인 통계 질문은없고 의심스러운 통계 루틴 만 있습니다
언급 된 바와 같이, 수단, SD 및 힌지 포인트는 범주 형 데이터에 의미가 없다. 힌지 점 (예 : 중앙값 및 사 분위수)은 서수 데이터에 의미가있을 수 있습니다. 제목은 범주 형 데이터를 설명하는 데 어떤 요약 통계를 사용해야하는지 묻습니다. 범주 형 데이터를 카운트 및 백분율로 특성화하는 것이 표준입니다. 백분율에 대해 95 % 신뢰 구간을 포함 할 수도 있습니다. 예를 들어 데이터가 다음과 같은 경우 :
"Hispanic" "Hispanic" "White" "White"
"White" "White" "African American" "Hispanic"
"White" "White" "White" "other"
"White" "White" "White" "African American"
"Asian"
다음과 같이 요약 할 수 있습니다.
White 10 (59%)
African American 2 (12%)
Hispanic 3 (18%)
Asian 1 ( 6%)
other 1 ( 6%)
공칭 변수가있는 경우 순서 또는 거리 함수가 없습니다. 그렇다면 언급 한 요약 통계를 어떻게 정의 할 수 있습니까? 나는 당신이 할 수 있다고 생각하지 않습니다. 사 분위수와 범위는 적어도 순서가 필요하며 수단과 분산에는 숫자 데이터가 필요합니다. 막대 그래프와 원형 차트는 순서가 아닌 정 성적 변수를 요약하는 올바른 방법의 전형적인 예라고 생각합니다.
모드는 여전히 작동합니다! 이것이 중요한 요약 통계가 아닙니까? (가장 일반적인 범주는 무엇입니까?) 나는 중앙값 제안이 통계적으로 가치가 거의 없거나 전혀 없다고 생각하지만 모드는 그렇지 않습니다.
또한 별개의 수는 귀중 할 것입니다. (얼마나 많은 카테고리가 있습니까?)
(가장 일반적인 범주) / (가장 낮은 공통 범주) 또는 (# 1 가장 일반적인 범주) / (# 2 가장 일반적인 범주)와 같은 비율을 만들 수 있습니다. 또한 80/20 규칙과 같이 (가장 일반적인 범주) / (다른 모든 범주).
당신은 또한 당신의 카테고리에 숫자를 할당하고 모든 일반적인 통계와 너트를 갈 수 있습니다. AA = 1, Hisp = 2 등입니다. 이제 평균, 중앙값, 모드, SD 등을 계산할 수 있습니다.
나는 다른 답변에 감사하지만 일부 토폴로지 배경은 응답에 훨씬 필요한 구조를 제공하는 것으로 보입니다.
도메인 정의를 설정하는 것으로 시작하겠습니다.
categorical 형 변수는 도메인에 요소가 포함 된 변수이지만 이들 사이에는 알려진 관계가 없습니다 (따라서 범주 만 있음). 예는 상황에 따라 다르지만 일반적인 경우에는 요일을 비교하기가 어렵습니다. 월요일 전 일요일이면 그렇다면 다음 주 월요일은 어떻습니까? 어쩌면 더 쉽지만 덜 사용되는 예는 옷 조각입니다. 순서에 맞는 문맥을 제공하지 않으면 바지가 점퍼 앞에 오거나 반대인지를 말하기가 어렵습니다.
서수 변수는 도메인에 대해 총 순서가 정의 된 변수입니다 . 즉, 도메인의 두 요소마다 동일하거나 하나가 다른 것보다 크다는 것을 알 수 있습니다. 커트 스케일은 서수 변수의 정의의 좋은 예이다. "약간 동의"는 "동의"보다 "강하게 동의"에 더 가깝습니다.
interval 변수는 하나의 도메인으로 요소 사이의 거리를 정의하여 ( metric ) 간격을 정의 할 수 있습니다.
우리가 사용하는 가장 일반적인 집합으로 자연수 와 실수 는 표준 총 주문 및 메트릭을 갖습니다. 그렇기 때문에 카테고리에 숫자를 지정할 때주의해야합니다. 순서와 거리를 무시하지 않으면, 범주 형 데이터를 실제로 간격 데이터로 변환합니다. 기계 학습 알고리즘이 어떻게 작동하는지 모른 채 기계 학습 알고리즘을 사용하는 경우, 그러한 가정을 의도하지 않게하여 잠재적으로 자신의 결과를 무효화 할 위험이 있습니다. 예를 들어, 가장 많이 사용되는 딥 러닝 알고리즘은 간격과 연속 속성을 활용하는 실수로 작동합니다. 또 다른 예는 5 점 리 커트 척도를 고려하고, 우리가 적용한 분석에서 어떻게 거리가 크게 동의 하고 동의 한다고 가정 하는가동일은 그대로 동의 하고 어느 쪽이 동의하지 않고 동의 . 그러한 관계에 대한 사례를 만들기가 어렵습니다.
우리가 자주 사용하는 또 다른 세트는 문자열 입니다. 문자열로 작업 할 때 유용한 여러 문자열 유사성 메트릭 이 있습니다. 그러나 이것들이 항상 유용한 것은 아닙니다. 예를 들어, 주소의 경우, John Smith Street와 John Smith Road는 문자열 유사성 측면에서 상당히 가깝지만 분명히 서로 다른 두 개의 엔티티를 나타냅니다.
자, 이제 몇 가지 요약 통계가 어떻게 적용되는지 봅시다. 통계는 숫자와 함께 작동하므로 해당 함수는 간격에 따라 잘 정의됩니다. 그러나 범주 형 또는 서수형 데이터로 일반화 할 수 있는지 여부에 대한 예를 살펴 보겠습니다.
마지막으로, 데이터에 정의한 순서와 측정 항목이 매우 문맥적임을 다시 강조하고 싶습니다. 지금까지는 분명하지만 마지막 예를 들어 보겠습니다. 지리적 위치로 작업 할 때는 여러 가지 방법으로 접근 할 수 있습니다.