극도로 치우친 분포 변환


13

분포가 매우 긍정적으로 치우친 변수가 있다고 가정하여 정규 분포의 비대칭 범위 내에 로그를 가져 오기에 충분하지 않습니다. 이 시점에서 내 옵션은 무엇입니까? 변수를 정규 분포로 변환하려면 어떻게해야합니까?


2
"부정 음으로 기울어 짐"은 왼쪽 또는 오른쪽을 가리키는 긴 꼬리를 의미합니까? 실제로 음으로 치우친 경우 (긴 꼬리 왼쪽) 로그 변환이 제대로 작동하지 않습니다.
Penguin_Knight

6
역수 변환은 대수보다 강력하며 측정 단위가 거꾸로되기 때문에 종종 의미를 유지합니다. 예를 들어, 무언가를하는 시간의 역수는 일종의 속도이며, 그 반대도 마찬가지입니다. 갤런 당 마일 또는 리터당 km의 역수는 의미가 있습니다. 역수는 순서를 거꾸로하고, 바람직하다면 부정 할 수 있습니다. 그것들은 자연스럽게 Box-Cox 체계의 일부이며 그 세부 사항이 있습니다. 이것이 제대로 작동하려면 모든 값이 양수 여야합니다. (원칙적으로 모든 값은 음수로 작동하지만 실제로 예제는 아직 보지 못했습니다.)
Nick Cox

2
@ Aksakal 좋은 생각으로 볼 수 없습니다. 결과는 값에 대해서만 통계적으로 의미가 있습니다. 값이 개수이면 데이터에서 해당 값이 발생하는지 여부에 관계없이 0 또는 1에 대해 변환을 정의하지 않는 것이 인공적인 것입니다. 값은 변환의 유효성이 불합리 측정 단위의 선택에 의존하는 제한 수단은 측정을하는 경우처럼 내가 cm를 사용하기 때문에 수행되지만 없다 mm을 사용하기 때문에 할 수 있습니다. (그 로그는 통계적으로 도움이되지 않는다고 생각하는 부정적인 주장에 대해 복잡한 결과를 낳습니다.)> 1 LN ( LN ( 0.7 ) ) LN ( LN ( 7 ) )ln(ln())>1ln(ln(0.7))ln(ln(7))
Nick Cox

2
@Aksakal "로그 변환은 왜도를 치료하는 도구가 아닙니다"라고 말하기에는 너무 강합니다. 당신의 요점은 한계 분포의 왜곡이 큰 문제 일 필요는 없다는 것입니다.
Nick Cox

3
나는 당연히 동의하지만, 제곱이나 대수를 사용하면 참조를 제공 할 의무가 없으며 여기에서도 마찬가지입니다. 그러나 왕복, 특히 시간과 속도의 유용성은 (예 : Tukey, JW 1977) 강조되었다. 탐색 데이터 분석. Reading, MA : Addison-Wesley와 그의 논문 중 일부. 갤런 당 마일과 마일 당 갤런 (또는 반대로 리터당 킬로미터 및 리터당 킬로미터)은 자동차 성능 데이터를 논의 할 때 일반적으로 사용됩니다. 밀도와 그 역수는 지리학 및 인구 통계학에서 상당히 표준적인 예입니다.
Nick Cox

답변:


13

Box, GEP 및 Cox, DR (1964), "변환 분석" , 왕립 통계 학회지, 시리즈 B , 26, 211-234에 따라 직선 Box-Cox 변환을 시도하십시오 . SAS는 Normalizing Transformations 에서 Loglikelihood 함수에 대한 설명을 가지고 있으며, Atkinson, AC (1985), Plots, Transformations, and Regression , New York : Oxford University Press에 설명 된 최적의 매개 변수 를 찾는 데 사용할 수 있습니다 .λ

LL 기능을 사용하여 구현하는 것이 매우 쉽고 SAS 또는 MATLAB과 같은 통계 패키지가있는 경우 해당 명령을 사용하십시오. MATLAB의 boxcox 명령 및 SAS의 PROC TRANSREG 입니다.

또한 R에서는 MASS 패키지, 함수 boxcox ()에 있습니다.


5

양의 스큐 (꼬리가 x 축의 양의 끝에 있음)의 경우, 제곱근 변환, 로그 변환 및 역 / 역 변환 (심각도 증가 순서)이 있습니다. 따라서 로그 변환이 충분하지 않으면 다음 레벨의 변환을 사용할 수 있습니다. Box Cox는 모든 변환을 자동으로 실행하므로 최상의 변환을 선택할 수 있습니다.


-5

대부분의 소프트웨어 제품군은 Euler의 번호를 기본 로그베이스 인 AKA : 자연 로그로 사용합니다. 오른쪽으로 치우친 데이터에서 더 높은 기본 번호를 사용할 수 있습니다. 구문 방식은 사용중인 소프트웨어에 따라 다릅니다.

추정이 완료된 후 변환 된 값에서 벗어나려면이 방법을 사용하는 것이 조금 더 쉬울 수 있습니다. 로그베이스가 무엇이든 변수에 대해 지수 연산자를 수행하기 때문입니다.


6
이자형
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.