Box-Cox 변환 데이터에서 원래 단위로 답변을 표현


13

일부 측정의 경우 분석 결과가 변환 된 스케일로 적절하게 표시됩니다. 그러나 대부분의 경우 원래 측정 규모로 결과를 제시하는 것이 바람직합니다 (그렇지 않으면 귀하의 작업은 다소 가치가 없습니다).

예를 들어, 로그 변환 된 데이터의 경우, 로그 된 값의 평균이 평균의 로그가 아니기 때문에 원래 스케일에 대한 해석에 문제가 발생합니다. 로그 척도의 평균 추정치에 대한 대수를 취해도 원래 척도의 평균 추정치는 제공되지 않습니다.

그러나 로그 변환 된 데이터에 대칭 분포가있는 경우 로그가 순서를 유지하므로 다음 관계가 유지됩니다.

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(로그 값 평균의 대수는 원래 측정 척도의 중앙값입니다).

따라서 원래 측정 척도에서 중앙값의 차이 (또는 비율)에 대해서만 추론 할 수 있습니다.

모집단이 대략 표준 편차로 대략 정규 인 경우 2- 표본 t- 검정과 신뢰 구간이 가장 신뢰할 수 있으므로 Box-Cox정규 가정을 위해 변환 을 사용하고 싶은 유혹이있을 수 있습니다 (또한 분산 안정화 변환이라고 생각합니다) ).

그러나 Box-Cox변환 된 데이터에 t-tools를 적용하면 변환 된 데이터의 차이에 대한 추론을 얻을 수 있습니다. 원래 측정 규모로 해석하는 방법은 무엇입니까? 변환 된 값의 평균은 변환 된 평균이 아닙니다. 즉, 변환 된 스케일에서 평균 추정값의 역변환을 수행해도 원래 스케일의 평균 추정값을 제공하지 않습니다.

이 경우 중앙값에 대해서만 추론 할 수 있습니까? 원래의 척도로 평균으로 돌아갈 수있는 변형이 있습니까?

이 질문은 처음에 여기 에 코멘트로 게시되었습니다.

답변:


11

원래 변수의 평균에 대한 유추를 원한다면 Box-Cox 변환을 사용하지 마십시오. IMO Box-Cox 변환은 변환 된 변수에 자체 해석이있을 때 가장 유용하며 Box-Cox 변환은 분석에 적합한 척도를 찾는 데 도움이됩니다. 이 방법으로 찾은 두 가지 예기치 않은 지수는 1/3 (응답 변수가 방 광량 일 때)과 -1 (응답 변수가 분당 호흡 일 때)이었습니다.

로그 변환은 아마도 이것에 대한 유일한 예외 일 것입니다. 로그 스케일의 평균은 원래 스케일의 기하 평균에 해당하며, 이는 적어도 잘 정의 된 수량입니다.


다른 예외도 있습니다. -1은 고조파 평균에 해당합니다.
kjetil b halvorsen 0시 33 분

9

Box-Cox 변환이 대칭 분포를 생성하면 변환 된 데이터의 평균이 원래 스케일의 중앙값으로 역변환됩니다. 이것은 Box-Cox 변환, IHS 변환 등을 포함한 모든 단조 변환에 적용됩니다. 따라서 변환 된 데이터의 평균에 대한 추론은 원래 척도의 중앙값에 대한 추론에 해당합니다.

원래 데이터가 왜곡되었으므로 (또는 처음에 Box-Cox 변환을 사용하지 않았을 때) 왜 평균에 대한 추론을 원하십니까? 이 상황에서 중간 값으로 작업하는 것이 더 의미가 있다고 생각했을 것입니다. 이것이 왜 "원본 규모의 해석 문제"로 이해되는지 이해가되지 않습니다.


BC 매개 변수 에 대한 추론은 조건부 입니다. 원래 규모로 쉽게 해석 할 수 있습니까? 나는 일반적인 과정은 단순히 그것을 그렇게보고하고 그것을 그대로 두는 것이라고 생각한다. λ
ars

감사합니다. 아마도 (대략 대칭 분포를 따라야한다고 생각하는 모집단의) 표본이 우연히 왜곡되었을 수 있기 때문일 수 있습니다.
George Dontas

4
어떤 환경 위험 평가를 통해 그 수단에 대해 추론 할 필요가있는 좋은 예입니다. 크게 단순화하기 위해 토지를 공원으로 개발할 계획이라고 가정하십시오. 당신은 토양의 염려되는 일부 화합물에 대해 토양을 테스트하고, 종종 그 농도가 대략 대수적으로 분포되어 있음을 발견합니다. 그럼에도 불구하고이 토양에 직접 노출 될 수있는 공원을 이용하는 사람들은 토양을 움직일 때 무작위로 토양을 균일하게 효과적으로 채취 할 것입니다. 시간에 따른 노출은 기하 평균이 아니라 산술 평균 농도가됩니다.
whuber

1
때때로 우리는 총량의 공식에서 비롯된 문제에 관심이 있습니다. 평균을 아는 경우 평균에서 총계로 이동할 수 있습니다 (관측 횟수를 곱한 값). 중앙값에서 총값으로 이동할 수있는 방법이 없습니다!
George Dontas

6

원래 척도에서 평균에 대한 추론을 수행하려는 경우 정규 가정을 사용하지 않는 추론 사용을 고려할 수 있습니다.

그러나 조심하십시오. 두 표본이 서로 다른 분산을 갖는 경우 리샘플링 (순열 테스트 또는 부트 스트랩)을 통해 평균을 간단히 비교하는 것만으로 분석에서 분산이 동일하다고 가정하는 경우 문제가 될 수 있습니다 (변형 된 스케일의 동일한 분산이 차이 분산이 됨) 평균이 다른 경우 원래 스케일로). 이러한 기술은 수행중인 작업에 대해 생각할 필요가 없습니다.

테스트보다 추정 또는 예측에 더 관심이있는 경우 고려해야 할 또 다른 방법은 변환 된 변수의 Taylor 확장을 사용하여 변환 후 근사 평균 및 분산을 계산하는 것입니다. 일반적인 Taylor 확장에서는 , 이제 여기서 는 평균 및 분산 인 임의의 변수이며 사용하여 다시 변환하려고합니다 .t [ μ + ( Y μ ) ] Y μ σ 2 t ( )f(x+h)t[μ+(Yμ)]Yμσ2t()

기대를하면, 두 번째 용어는 빠지고 사람들은 보통 첫 번째와 세 번째 용어 만 취합니다 (여기서 세 번째는 평균을 변환하는 데있어 편향에 대한 근사치를 나타냄). 또한 두 번째 항으로 확장의 분산을 취하면 가 상수 이기 때문에 첫 번째 항과 첫 번째 공분산 항은 제거됩니다 .t(μ)

-

가장 쉬운 경우는 로그 스케일에 정규성이 있으므로 원래 스케일에 로그 정규가있는 경우입니다. 분산이 알려진 경우 (매우 드물게 발생 함) 원래 정규적으로 로그 정규 CI 및 PI를 구성 할 수 있으며 관련 수량 분포의 평균에서 예측 평균을 제공 할 수 있습니다.

로그 스케일에 모두 평균과 분산을 추정하는 경우 스터링 구성 할 수 있습니다 (관찰, 말에 대한 예측 간격) 간격을하지만, 원래 규모는 스터링 어떤 순간을하지 않습니다 . 따라서 예측의 평균은 존재하지 않습니다.ttt

어떤 질문에 대답하려고하는지 정확하게 신중하게 생각해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.