변동 계수를 해석하는 방법은 무엇입니까?


33

나는 변동 계수 를 이해하려고 노력하고 있습니다. 다음 두 샘플 데이터에 적용하려고하면 결과를 해석하는 방법을 이해할 수 없습니다.

샘플 1이 이고 샘플 2가 이라고 가정 해 봅시다 . 보시 다시피 sample 2 sample 1 입니다.0,5,7,12,11,1710,15,17,22,21,27=+ 10

둘 다 표준 편차가 이지만 및 입니다.σ2=σ1=5.95539μ2=18.67μ1=8.66667

이제 변동 계수 가 달라집니다. 샘플 2의 경우 샘플 1보다 적습니다. 그러나 그 결과를 어떻게 해석합니까? 분산 측면에서 두 가지가 동일합니다. 그들의 수단 만이 다릅니다. 여기서 변동 계수는 무엇입니까? 오해의 소지가 있거나 결과를 해석 할 수 없습니다.σ/μ


10을 더하는 대신 1000을 더하면 두 번째 숫자 세트는 첫 번째 세트보다 평균에 비해 훨씬 덜 다릅니다. 변동 계수는이를 표현한 것입니다.

답변:


42

데이터가 단지 부가 적으로 다른 경우와 같은 예에서, 우리는 모든 것에 일정한 를 더한 다음 표준 편차가 변경되지 않음을 지적함에 따라 평균은 정확히 그 상수에 의해 변경되므로 변동 계수는 σ / μ 에서 변경됩니다 행 σ / ( μ + K ) 도 흥미롭게도 유용하다.kσ/μσ/(μ+k)

흥미롭고 변동 계수가 어느 정도 사용되는 것은 곱셈의 변화입니다. 모든 상수에 를 곱하면 변동 계수가 k σ / k μ가되고 , 즉 이전과 동일하게 유지됩니다. @Aksalal 및 @Macond의 답변에서와 같이 측정 단위 변경이 적절한 경우입니다.kkσ/kμ

변동 계수에 단위가 없으므로 기본 변수에 포함 된 단위 또는 치수가 나눗셈에 의해 제거되므로 치수가 없습니다. 그것은 변동 계수를 상대 변동성 의 척도로 하므로, 길이의 상대 변동은 가중치 등과 비교 될 수있다. 변동 계수가 설명적인 용도로 사용되는 한 분야는 생물학에서 유기체 크기의 형태 계측입니다.

원칙적으로 실제 변동 계수는 완전히 정의 된 변수에 대해서만 완전히 정의 된 것입니다. 따라서 값이 첫 번째 샘플은 자세하게 적합하지 않습니다. 이것을 보는 또 다른 방법은 표준 편차가 양수인 것으로 가정 할 때 계수가 미결정 된 평균이 0이고 계수가 음의 평균 인 경우 음수 인 것을 주목하는 것이다. 어느 경우 든, 상대 변동성의 척도로서, 또는 다른 목적으로는 척도를 쓸모 없게 만들 수있다. 0

동등한 설명은 변동 계수가 흥미롭고 모든 값에 대해 일반적인 방식으로 로그가 정의되고 실제로 변동 계수를 사용하는 것이 로그의 변동성을 보는 것과 동등한 경우에만 유용하다는 것입니다.

그것은 여기에 독자에게 놀라운 것 하겠지만, 나는 섭씨 온도의 변화의 계수가 평균 온도가 가까이로 계수가 폭발 할 수 있습니다 순진한 과학자 의아해했다있는 기후 학적 및 지리적 간행물 보았다 C 및 평균 온도에 대한 부정적인 될 영하. 더 기괴하게도, 대신 화씨를 사용하여 문제가 해결된다는 제안을 보았습니다. 반대로, 변동 계수는 종종 측정 스케일이 비율 스케일로 규정 된 경우에만 정의 된 요약 측정으로 올바르게 언급됩니다. 이와 같이, 변동 계수는 켈빈 단위로 측정 된 온도에서도 특히 유용하지 않지만 수학 또는 통계보다는 물리적 이유로 인해 유용합니다.0

저자가 학점이나 수치심을 가질 가치가 없기 때문에 내가 언급하지 않은 기후학의 기괴한 예의 경우와 같이, 변동 계수는 일부 분야에서 과도하게 사용되었습니다. 때때로 평균과 표준 편차를 모두 캡슐화하는 일종의 마술 요약 척도로 간주하는 경향이 있습니다. 비율이 의미가 있더라도 평균 및 표준 편차를 복구 할 수 없으므로 자연스럽게 원시적 인 사고입니다.

통계에서 변동 분포가 해당 분포에 대한 변동 계수의 형태를 보면 알 수 있듯이 변동 계수가 감마 또는 로그 정규 법을 따르는 경우 상당히 자연스러운 매개 변수입니다.

변동 계수가 일부 사용될 수 있지만, 더 유용한 단계를 적용하는 경우, 로그 변환 또는 일반 선형 모델에서 로그 링크 함수를 사용하여 로그 스케일에서 작업하는 것이 더 유용한 단계입니다.

편집 : 모든 값이 음수이면 부호를 무시할 수있는 규칙으로 간주 할 수 있습니다. 이 경우 효과적으로 동일한 변동 계수 쌍입니다.σ/|μ|


3
+1이 게시물에는 문제에 대한 토론의 일부가되어야하는 로그와 양성에 대한 핵심 사항이 포함되어 있습니다. "전쟁 이야기"도 잘 읽습니다.
whuber

변수가 0이면 CV를 계산할 수 없다고 생각 했습니까?

1
@ 저프 : 생각합니다. 모든 값이 0이면 변동이없고 계산할 것이 없습니다. 그 자체가 평균이 0임을 배제하지 않기 때문에 일부 개별 값이 0이기 때문에 문제가 없습니다. 그러나 일부 값이 0이 아닌 평균이 0 인 예를 항상 찾을 수 있습니다 (예 : -1, 0, 1) 이 경우 CV는 불확실합니다. 그러나 실제로 CV는 모든 값이 양수일 때 가장 유용합니다.
Nick Cox

13

내가 "이 마을에는 1,625,330 명이 있습니다. 플러스 마이너스 5가 있습니다." 내 정확한 인구 통계 학적 지식에 깊은 인상을 받았을 것입니다.

그러나 "이 집에는 5 명이 있습니다. 플러스 마이너스 5가 있습니다."라고 말하면 집에 얼마나 많은 사람들이 있는지 전혀 모른다고 생각할 것입니다.

동일한 표준 편차, CV와는 매우 다릅니다.


1
이것은 CoV가 무엇인지 설명하는 합리적인 방법이지만 OP의 질문과 그것이 얼마나 관련이 있는지는 확실하지 않습니다.
gung-복직 모니카

OP는 다음과 같이 묻습니다. "분산 측면에서 둘 다 동일합니다. 평균 만 다릅니다. 여기서 변동 계수를 사용하는 것은 무엇입니까?" 필자의 예제는 분산을 해석하는 방법으로 CV를 사용하는 방법을 보여줍니다.
Bart

1
난 당신을 downvote하지 않았다. OP의 두 가지 명시적인 질문은 "결과를 어떻게 해석합니까?"및 "여기서 변동 계수는 어떻게 사용됩니까?"입니다. 설명은 좋지만 CoV가 무엇인지 이해하는 것은 해당 질문에 대한 전체 답변이 아니라 해당 질문에 대한 첫 번째 단계 일뿐입니다.
gung-복직 모니카

4

일반적으로 다양한 측정 단위 또는 매우 다른 스케일의 변수에 변동 계수를 사용합니다. 이를 잡음 / 신호 비율로 생각할 수 있습니다. 예를 들어, 학생의 체중과 신장의 변동성을 비교할 수 있습니다. 미국과 모나코의 GDP 변동성.

귀하의 경우 변동 계수가 그다지 다르지 않기 때문에 전혀 이해가되지 않을 수 있습니다.



2

실제로, 가설과 실험을 모르거나 이해하지 못하면 두 통계가 오도 될 수 있습니다. 이 끔찍한 예를 생각해 봅시다. 판자를 밟는 것과는 달리 줄타기로 두 개의 고층 건물을 가로 질러 걷는 것이 좋습니다. 줄 타기의 지름은 1 인치이고 판자는 12 인치입니다. 5 명이 밧줄을 걸어야하고 5 명이 판자를 걷도록 요청 받았다. 다음과 같은 결과를 찾았습니다.

로프의 모서리 (인치)에서 각 단계의 평균 거리 : 0.5, 0.2, 0.3, 0.6, 0.1

판자 (인치)의 가장자리 (또는 측면)에서 각 단계의 평균 거리 : 5.5, 5.2, 5.3, 5.6, 5.1

예에서와 마찬가지로이 예에서는 널빤지 값이 줄타기 값과 +5 차이이므로 표준 편차가 동일합니다. 그러나 각 실험에 대한 표준 편차가 0.2074라고 말하면 두 실험이 동일하다고 말할 수 있습니다. 그러나 줄타기 실험의 CV가 널빤지의 4 % 미만에 비해 거의 61 %라고 말하면 로프에서 몇 명의 사람들이 떨어졌는지 물어볼 수 있습니다.


0

CV는 서로 다른 표본 데이터 집합의 변동성을 비교하는 데 사용되는 상대 변동성입니다. 예를 들어 평균이 작은 동일한 표준 편차 / 분산은 더 작은 CV를 생성합니다. CV 데이터 세트가 작을수록 상대적 변동성이 더 작음을 나타냅니다. 당신이 매월 10000을 벌고 100을 버린다고 가정하십시오. 더 큰 변화.


1
이것이 기존 답변에 아무것도 추가하지 않는다고 말해야합니다.
Nick Cox

0

이 경우 cv는 결과를 설명하는 올바른 통계 도구가 아닙니다.

따라서 수행 된 연구의 성격에 따라 연구자는 구체적인 가설이나 증거를 제시해야합니다. 최상의 통계 도구를 사용하여 실험을 설계하고 실행하고 데이터를 분석해야합니다. 즉, 실험에서 그룹 1과 그룹 2의 성장을 비교하는 것이지만 둘 다 cv는 동일하지만 T- 검정 또는 쌍을 이루는 T- 테스트 또는 Anova (더 큰 실험) 두 그룹의 차이점을 쉽게 증명할 수 있습니다.

여기서 핵심은 결과에 대한 의미있는 설명을 제공하기 위해 적절한 통계 도구를 적용하는 것입니다. cv는 기술 통계량의 선택 중 하나 일뿐입니다.

내 2 센트

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.