제곱근, 로그 등과 같은 일반적인 변형 외에 일반적으로 사용되는 다른 정규 변환은 무엇입니까?


10

시험 점수 분석 (예 : 교육 또는 심리학)에서 일반적인 분석 기법은 종종 데이터가 정규 분포되어 있다고 가정합니다. 그러나, 아마도 더 자주는 아니지만, 점수는 때때로 정상에서 크게 벗어나는 경향이 있습니다.

나는 제곱근, 대수, 양의 스큐를 줄이기위한 상호 변환, 음의 스큐를 줄이기위한 위의 반사 버전, 렙토 커틱 분포의 제곱과 같은 몇 가지 기본 정규화 변환에 익숙합니다. 아크 사인 변환과 전력 변환에 대해 들어 봤지만 실제로는 알지 못합니다.

분석가들이 일반적으로 사용하는 다른 변환대해 궁금합니다 .

답변:


5

박스 콕스의 변환은 당신이 인용 된 것들의 대부분이 포함되어 있습니다. 자세한 내용은이 답변을 참조하십시오.

업데이트 :이 슬라이드 는 Box-Cox 변환에 대한 훌륭한 개요를 제공합니다.


Box-Cox 변환 된 데이터에 t-tools를 적용하면 변환 된 데이터의 차이에 대한 추론을 얻을 수 있습니다. 원래 측정 규모로 해석하는 방법은 무엇입니까? 변환 된 값의 평균은 변환 된 평균이 아닙니다. 다시 말해, (정확한 경우) 변환 된 척도에서 평균 추정치의 역변환을 수행해도 원래 척도의 평균 추정치는 제공되지 않습니다.
George Dontas

@ gd047에서 일부 테스트는 데이터가 아닌 평균 분포의 정규성을 가정합니다. t- 검정은 기본 데이터에 비해 상당히 강력한 경향이 있습니다. 그래도 그렇습니다. 변형 후 테스트의 경우 역변환 후 결과가보고되며 해석에 문제가있을 수 있습니다. 데이터가 "정상적이지 않은"상태에 이르면, 해석하기 쉬운 로그 변환과 같이 변환하거나 적용하지 않고도 벗어날 수 있습니다. 그렇지 않으면 실제 변환 및 도메인에 대한 맥락이며 실제로 좋은 대답이 없습니다. 다른 사람들의 의견을 물어볼 가치가 있습니까?
ars

10

번째 단계 는 변수가 정규 분포가 아닌 이유묻는 것 입니다. 이것은 조명이 될 수 있습니다. 내 경험에서 일반적인 발견 :

  • 실력 시험 (예 : 시험, 지능 시험, 입학 시험)은 상한 효과가있을 때는 부정적으로 왜곡되고 바닥 효과가있을 때는 긍정적으로 왜곡되는 경향이 있습니다. 두 연구 결과는 시험의 난이도가 표본에 대해 최적화되지 않았으며, 능력을 최적화하기에는 너무 쉽고 너무 어렵다는 것을 시사합니다. 또한 잠재적 인 관심 변수가 여전히 정규 분포를 유지할 수 있지만 테스트의 구조가 측정 변수의 왜곡을 유발하고 있음을 의미합니다.
  • 어빌리티 테스트는 종종 낮은 득점자 측면에서 특이점을 가지고 있습니다. 간단히 말해서 테스트에서 제대로 수행하지 못하는 방법은 여러 가지가 있습니다. 특히 이것은 적성 부족과 노력 부족의 조합이 매우 낮은 시험 점수를 생성하기 위해 결합 된 적은 비율의 학생이있는 시험에서 때때로 볼 수 있습니다. 이것은 잠재적 인 관심 변수가 아마도 몇 가지 특이 치를 가지고 있음을 의미합니다.
  • 자체보고 테스트 (예 : 성격, 자세 테스트 등)와 관련하여, 표본이 본질적으로 규모가 높을 때 (예를 들어, 대부분의 사람들이 만족하기 때문에 삶의 만족도 분포가 부정적으로 왜곡 될 때) 비늘이 발생합니다. 시험이 적용되는 것과 다른 샘플에 최적화되어있다 (예를 들어, 비 임상 샘플에 우울증의 임상 측정치를 적용 함).

이 첫 번째 단계는 테스트에 대한 설계 수정을 제안 할 수 있습니다. 이러한 문제를 미리 알고 있다면 문제가있는 것으로 판단되는 경우이를 피하도록 테스트를 설계 할 수도 있습니다.

번째 단계 는 비정규 데이터가있는 상황에서 수행 할 작업결정하는 것 입니다. 참고 변환은 하나의 가능한 전략 일뿐입니다. 비정규성에 대한 이전 답변 의 일반적인 조언을 반복합니다 .

  • 잔차의 정규성을 가정하는 많은 절차는 잔차 의 정규성을 위반하는 경우에 강력 합니다.
  • 부트 스트랩 은 일반적으로 좋은 전략입니다
  • 변환 은 또 다른 좋은 전략입니다. 내 경험으로는 일반적으로 능력과 자기보고 심리 테스트에서 일반적으로 발생하는 일종의 온화한 스큐는 일반적으로 로그, sqrt 또는 역 변환 (또는 그에 상응하는 역전)을 사용하여 정규성에 가까운 분포로 상당히 쉽게 변환 될 수 있습니다.

9

John Tukey는 EDA에 관한 그의 책에서 변형을 체계적으로 논의합니다. Box-Cox 제품군 (정확히 확장 된 전력 변환) 외에도 비율 (필수적으로 x / (1-x)의 거듭 제곱) 및 "시작된"카운트 (계산 된 데이터에 양의 오프셋 추가)에 대한 "접힌"변환 패밀리를 정의합니다. 변환하기 전에). 로짓을 본질적으로 일반화하는 접힌 변형은 특히 시험 점수에 유용합니다.

완전히 다른 맥락에서 Johnson & Kotz는 분포에 관한 저서에서 테스트 통계를 카이-제곱에 대한 큐브 루트 변환과 같은 대략적인 정규성 (또는 다른 대상 분포)으로 변환하기위한 많은 변형을 제공합니다. 이 자료는 데이터가 특정 분포를 따를 것으로 예상 할 때 유용한 변환을위한 훌륭한 아이디어 소스입니다.


2

간단한 옵션은 점수 자체 대신 점수 합계를 사용하는 것입니다. 분포의 합은 정규 경향이 있습니다. 예를 들어 Education에서 일련의 테스트에 대해 학생의 점수를 추가 할 수 있습니다.

물론 또 다른 옵션은 과소 평가되고 사용되지 않는 정규성을 가정하지 않는 기술을 사용하는 것입니다.


1
분포가 정규화되는 경향을 나타내려면 합계를 정규화해야합니다 (예 : 평균 점수 사용).

1
네 맞습니다. 나의 예에서 나는 수업이 같은 수의 학생을 가질 것이라고 가정했는데, 이는 현실적이지 않다. 감사합니다.
Carlos Accioly

1

엑스에프와이 미디엄이자형아르 자형×에프

엑스(μ,σ2)θ=(μ엑스,σ엑스,δ,α)α1

이제 데이터 변환으로 변환이 bijective (거의 경우 거의 bijective) 이므로 Lambert의 W 함수 (따라서 Lambert W x F)를 사용하여 명시 적으로 얻을 수 있으므로 이는 흥미로워집니다 . 이것은 데이터에서 왜도를 제거하고 두꺼운 꼬리를 제거 할 수 있음을 의미합니다.

LambertW R 패키지를 사용하여 사용해 볼 수 있으며, 설명서에는 사용 방법에 대한 많은 예가 나와 있습니다.

응용 프로그램은 다음 게시물을 참조하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.