서수 변수의 평균을 계산하는 것이 부적절하다고 여러 곳에서 읽었습니다. 부적절한 이유에 대한 직감을 얻으려고합니다. 나는 일반적으로 서수 변수가 정상적으로 분포되어 있지 않기 때문에 평균을 계산하면 부정확 한 표현을 얻을 수 있다고 생각합니다. 서수 변수의 평균을 계산하는 것이 부적절한 이유에 대해 더 자세한 추론을 할 수 있습니까?
서수 변수의 평균을 계산하는 것이 부적절하다고 여러 곳에서 읽었습니다. 부적절한 이유에 대한 직감을 얻으려고합니다. 나는 일반적으로 서수 변수가 정상적으로 분포되어 있지 않기 때문에 평균을 계산하면 부정확 한 표현을 얻을 수 있다고 생각합니다. 서수 변수의 평균을 계산하는 것이 부적절한 이유에 대해 더 자세한 추론을 할 수 있습니까?
답변:
짧은 대답은 이것이 논쟁의 여지가 있다는 것입니다. 언급 한 조언과 달리 많은 분야의 사람들은 서수 척도를 사용하고 종종 원하는 것을 수행한다는 것을 기쁘게 생각합니다. 많은 교육 시스템에서 학년 평균 또는 이에 상응하는 것이 한 예입니다.
그러나 평균이 정규 분포를 따르지 않는 서수 데이터는 유효한 이유가 아닙니다.
비정규 분포에 널리 사용
일부 병리학적인 경우를 제외하고 매우 많은 비정규 분포에 대해 수학적으로 잘 정의되어 있습니다.
데이터가 정규 분포가 아닌 경우 실제로 평균을 사용하는 것이 좋지 않을 수도 있지만 다릅니다.
서수 데이터에 평균을 사용하지 않는 더 강한 이유는 값이 코딩 규칙에 따라 달라지기 때문입니다. 1, 2, 3, 4와 같은 숫자 코드는 일반적으로 단순성 또는 편의성을 위해 선택되었지만 원칙적으로 관련 정의 된 순서에 해당하는 한 1, 23, 456, 7890과 동일 할 수 있습니다. 어느 경우 든 의미를 취하려면 이러한 규칙을 문자 그대로 (즉, 숫자가 임의적이지 않지만 정당화 될 수있는 것처럼) 취해야하며 그렇게 할 근거가 없습니다. 복용 수단을 정당화하기 위해 값 사이의 동등한 차이를 문자 그대로 취할 수있는 간격 척도가 필요합니다. 제가 주된 논거로 삼을 것이지만, 이미 지적했듯이 사람들은 종종 그것을 무시하고 고의적으로 생각합니다. 왜냐하면 그들은 이론가들이 말하는 모든 측정법이 유용하다는 것을 알기 때문입니다.
다음은 추가 예입니다. 종종 사람들은 "강하게 동의하지 않음"... "강하게 동의 함"중 하나를 선택하도록 요청하고 (부분적으로 소프트웨어가 원하는 것에 따라) 연구원들은 1 .. 5 또는 0 .. 4 또는 원하는대로 코드를 작성하거나 선언합니다. 순서 요소 (또는 소프트웨어가 사용하는 모든 용어). 여기서 코딩은 임의적이며 질문에 대답하는 사람들에게는 숨겨져 있습니다.
그러나 종종 사람들은 1에서 5까지의 규모로 질문을받습니다. 어떻게 평가하십니까? 예를 들어 웹 사이트, 스포츠, 다른 종류의 경쟁 및 실제로 교육이 있습니다. 여기 사람들은 저울을 보여주고 사용하도록 요청 받고 있습니다. 정수가 아닌 사람이 의미가 있다는 것은 널리 알려져 있지만 정수를 규칙으로 사용하는 것이 허용됩니다. 이 서수 스케일입니까? 어떤 사람들은 그렇습니다, 어떤 사람들은 그렇습니다. 달리 말하면 문제의 일부는 서수 척도 자체가 퍼지 또는 토론 영역이라는 것입니다.
E에서 A와 같은 학업 성적을 다시 고려하십시오. 종종 이러한 등급은 1에서 5까지의 숫자로 처리되며, 일반적으로 사람들은 학생, 코스, 학교 등의 평균을 계산하고 그러한 데이터에 대한 추가 분석을 수행합니다. 숫자 점수에 대한 매핑은 순서를 유지하는 한 임의적이지만 수용 가능하다는 것이 사실이지만 그럼에도 불구 하고 실제로 점수를 할당하고받는 사람들은 점수에 동등한 숫자가 있으며 점수가 평균화된다는 것을 알고 있습니다 .
수단을 사용하는 실용적인 이유 중 하나는 중앙값과 모드가 종종 데이터의 정보를 제대로 요약하지 않기 때문입니다. 강력하게 동의하지 않고 편의점 코드 1에서 5까지 강력하게 동의하지 않는 스케일이 있다고 가정 해 봅시다. 이제 1, 1, 2, 2, 2로 코딩 된 하나의 샘플과 1, 2, 2, 4, 5로 코딩 된 샘플을 상상해보십시오. 중앙값과 모드가 서수 척도이기 때문에 유일하게 정당한 요약이라고 생각하면 손에 넣으십시오. 합이 잘 정의되어 있는지 여부에 관계없이 평균도 유용한 경우 손을 들어보십시오.
물론 코드가 1-5의 정사각형 또는 큐브라면 평균이 과민 한 요약이 될 것입니다. (목표가 높은 fliers를 신속하게 식별하는 것이 정확히 원하는 것일 수 있습니다!) 그러나 연속 정수 코드를 사용하는 기존의 코딩은 실제로 실제로 잘 작동하기 때문에 실용적인 선택입니다. 그것은 측정 이론가들에게 무게를 지니고있는 논쟁이 아니며, 데이터 분석가들은 정보가 풍부한 요약을 생성하는데 관심을 가져야합니다.
나는 등급 주파수의 전체 분포를 사용하지만 문제가되지는 않는다고 말하는 사람에 동의합니다.
예를 들어 1에 강력하게 동의하지 않음, 2에 대해 동의하지 않음, 3에 동의, 4에 동의하는 서수 값을 사용한다고 가정합니다. 4 명이 1, 2, 3 및 4의 응답을 제공하면 평균은 무엇입니까? (1 + 2 + 3 + 4) /4=2.50입니다.
네 사람의 평균 반응이 "동의 또는 동의"인 경우 어떻게 해석해야합니까? 따라서 서수 데이터에 평균을 사용해서는 안됩니다.
나는 @Azeem에 전적으로 동의합니다. 그러나이 지점을 집으로 몰아 가기 위해 조금 더 자세히 설명하겠습니다.
@Azeem의 예와 같이 서수의 범위가 1에서 4까지 인 서수 데이터를 가지고 있다고 가정 해 봅시다.이 스케일에서 몇 명의 사람들이 아이스크림과 같은 것을 평가한다고 가정 해 봅시다. 다음과 같은 결과가 나타납니다.
결과를 해석하고 싶을 때 다음과 같은 정도로 결론을 내릴 수 있습니다.
그러나 등급 사이의 간격에 대해서는 아무것도 모릅니다. 1과 2의 차이가 3과 4의 차이와 동일합니까? 4 점은 실제로 1 점으로 평가 한 사람보다 아이스크림을 4 배 더 좋아한다는 의미입니까? 그리고 등등 ... 산술 평균을 계산할 때, 숫자의 차이가 같은 것처럼 숫자를 취급합니다. 그러나 이것은 서수 데이터에 대한 매우 강력한 가정이므로 정당화해야합니다.