양수 및 음수 값의 데이터를 사용할 때 변동 계수가 유효하지 않은 이유는 무엇입니까?


10

내 질문에 대한 명확한 대답을 찾지 못하는 것 같습니다.

내 데이터는 0.27에서 0.57까지 다양한 측정 평균을 가진 여러 플롯으로 구성됩니다. 필자의 경우 모든 데이터 값은 양수이지만 측정 자체는 -1에서 +1 사이의 반사율 비율을 기반으로합니다. 플롯은 식생 "생산성"의 원격 파생 지표 인 NDVI의 값을 나타냅니다 .

필자의 의도는 각 플롯에서 값의 변동성을 비교하는 것이었지만 각 플롯마다 다른 평균이 있으므로 CV를 사용하여 플롯 당 NDVI 값의 상대적 분산을 측정하기로 결정했습니다.

내가 이해 한 바에 따르면, 각 음모는 양수 값과 음수 값을 모두 가질 수 있기 때문에 이러한 음모의 CV를 취하는 것은 정결하지 않습니다. 그러한 경우에 CV를 사용하는 것이 왜 적절하지 않습니까? 실행 가능한 대안은 무엇입니까 (즉, 유사한 분산, 데이터 변환 등의 테스트)?


1
변동성을 비교하는 목적은 무엇입니까? CV와 같은 상대적인 측정 값 대신 SD, MAD, 범위 등의 실제 변동성 측정 값을 비교하는 것이 어떻습니까?
whuber

플롯 사이의 평균 차이를 설명하기 위해 CV를 사용하고 있습니다. 모든 그림에서 값의 범위가 -1과 +1 사이이므로 의미가 없습니까? 즉, "실제 변동성"은 도표 간의 차이를 더 잘 나타낼 수 있습니까?
Prophet60091

2
CV는 정의에 따른 상대적인 변동 측정입니다. 음의 평균에 대해 무의미한 결과를 제공합니다 (음의 양의 분산 또는 확산을 해석 할 수 없음). 긍정적 인 수단의 경우 평균이 작을 때 주어진 스프레드 양이 훨씬 크게 보입니다. 이가 원하는 경우, 당신이하는 일은 로그 스케일에 데이터를 비교 효과적으로 동일합니다 - 때마다 그 말도 안돼 어떤 데이터의 0 또는 음수가 될 수 있습니다. 가변성을 잘 비교하려면 데이터에 어떤 종류의 재 표현이 필요할 수 있습니다. 생성 방법에 따라 다릅니다.
whuber

설명을 위해 +1 내 음모의 평균이 모두 양수이지만 각 음모에는 음수 값이있을 수 있습니다. 위의 내용과 아래의 Peter의 답변에 따르면 CV를 사용하는 것은 보증되지 않습니다. 잠재적으로 값의 크기를 조정하거나 실제 변동성 측정을 사용하는 방법을 살펴 보겠습니다.
Prophet60091

1
상수를 추가하여 데이터를 현명하게 리 스케일 할 수 있다면 CV 좋지 않습니다. 상수를 추가하면 CV가 변경되지만 변동은 변경되지 않기 때문입니다.
Peter Flom

답변:


11

CV가 무엇인지 생각해보십시오 : 표준 편차 대 평균의 비율. 그러나 변수가 양수 및 음수 값을 가질 수있는 경우 평균은 0에 ​​매우 가깝습니다. 따라서 CV는 더 이상해야 할 일을하지 않습니다. 즉, 평균에 비해 sd의 크기를 알 수 있습니다.

편집 : 의견에서, 변수에 상수를 현명하게 추가 할 수 있다면 CV는 좋지 않다고 말했습니다. 예를 들면 다음과 같습니다.

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2는 단순히 x + 10입니다. 그것들이 똑같이 가변적이라는 것이 직관적으로 분명하다고 생각합니다. 그러나 이력서가 다릅니다.

실제 예는 x가 C의 온도이고 x2가 K의 온도 인 경우입니다 (K가 정의 된 0을 가지므로 K가 적절한 척도라고 주장 할 수 있음).


고마워! 따라서 우려는 평균이 0에 가까우며 데이터에 반드시 양수 값과 음수 값이있는 것은 아닙니다. 그렇다면 평균이 0에 가까울 때 "매우 가깝다"고 간주되는 이유는 무엇입니까? 제 경우에는 제 평균을 거의 제로에 가깝지 않습니다. 이것을 결정하는 확실한 방법이 있습니까?
Prophet60091

아닙니다. 문제는 1 개의 음수 값만 있어도 CV가 더 이상해야 할 일을하지 않는다는 것입니다. 음수 값이 있으면 CV를 사용하지 마십시오. 또한 값이 임의의 척도 인 경우 CV를 사용하지 마십시오.
Peter Flom

완전성을 위해 임의의 스케일을 사용하는 것이 CV의 사용을 무효화하는 이유에 대해 조금 더 설명해 주시겠습니까? 고마워!
Prophet60091

모든 공정성에서, @whuber는 변환 된 데이터와 변환되지 않은 데이터의 비교를 옹호하지는 않았지만 요점은 여전히 ​​결정됩니다. 스케일링은 결과가 동일하게 유지되어야한다고 생각할 때 CV에 영향을 미칩니다. 장난감 R 코드 +1!
Prophet60091

이 스레드에 대한 @whuber의 의견에는 논쟁이 없습니다.
Peter Flom

0

나는 이것을 다른 변형 모델로 생각합니다. CV가 일정한 통계 모델이 있습니다. 그들이 일하는 곳에서 이력서를보고 할 수 있습니다. 표준 편차가 평균의 거듭 제곱 인 모델이 있습니다. 표준 편차가 일정한 모델이 있습니다. 일반적으로 상수 CV 모델은 비율 스케일 변수의 경우 상수 SD 모델보다 초기 추측이 더 좋습니다. 가산 적 상호 작용보다는 곱셈의 유병률에 따라 아마도 그 이유가 무엇인지 추측 할 수 있습니다.

상수 CV 모델링은 종종 로그 변환과 관련이 있습니다. 중요한 예외는 때로는 0이 아닌 음이 아닌 응답입니다.이를 보는 몇 가지 방법이 있습니다. 첫째, CV가 일정하면 로그는 일반적인 분산 안정화 변환입니다. 또는 오류 스케일이 로그 스케일에서 SD 상수로 로그 정규 인 경우 CV는 해당 SD의 간단한 변환입니다. CV는 둘 다 작을 때 로그 스케일 SD와 거의 같습니다.

표준 편차와 같은 통계 101 방법을 적용하는 두 가지 방법은 데이터를 얻은 방식 또는 로그에 대한 비율 (특히 비율 척도 인 경우)입니다. 당신은 자연이 다소 복잡 할 수 있고 더 많은 연구가 필요하다는 것을 알 수있는 최선의 추측을합니다. 사람들이 이전에 귀하의 종류의 데이터로 생산적인 것을 발견 한 것을 고려하십시오.

이 물건이 중요한 경우가 있습니다. 화학 농도는 때때로 CV로 요약되거나 로그 스케일로 모델링됩니다. 그러나 pH는 로그 농도입니다.


3
귀하의 기여에 감사 드리며 당사 사이트에 오신 것을 환영합니다! 음의 값을 가질 수있는 데이터를 특성화하기 위해 CV를 사용하는 유효성에 대한 질문에 대한 답변을 어떻게 명확하게 설명 할 수 있습니까? 그 상황은 당신의 어떤 말도 다루지 않는 것 같습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.