데이터에 제곱근 변환을 사용하는 이유는 무엇입니까?


15

데이터를 제곱근으로 변환하기 위해 내가 생각할 수있는 이유가 있습니까? 내가 항상 관찰하는 것은 R ^ 2가 증가한다는 것입니다. 그러나 이것은 아마도 데이터 중심에 있기 때문일 것입니다! 어떤 생각이라도 감사합니다!


나는이 질문에 대한 일반적인 질문과 대답 stats.stackexchange.com/questions/18844/…
IrishStat

3
종속 변수가 다르면 R- 제곱을 비교할 수 없습니다.

답변:


13

일반적으로 파라 메트릭 회귀 / GLM은 변수와 각 X 변수 간의 관계 가 선형이고 모델을 적합하게 한 잔차는 정규 분포를 따르고 잔차의 크기는 거의 동일하게 유지된다고 가정합니다. 적합 선을 따라. 데이터가 이러한 가정을 준수하지 않으면 변환이 도움이 될 수 있습니다. YX

YX2YR2YXXX

Dmitrij와 ocram이 말했듯이 이것은 특정 상황에서 도움이 될 수있는 가능한 변환 중 하나이며 Box-Cox 수식과 같은 도구를 사용하면 가장 유용한 것을 선택할 수 있습니다. 모형을 피팅 할 때 항상 적합치에 대한 잔차 그림 (및 정규 확률도 또는 잔차 히스토그램)을 보는 습관을들이는 것이 좋습니다. 당신은 종종 어떤 종류의 변형이 도움이 될지를 이것들로부터 볼 수 있다는 것을 알게 될 것입니다.


고마워! 나는 boxcox funtion을 알고 있지만 sqrt 변환이 어떤 실용적인 이유인지 궁금합니다! 감사합니다!
MarkDollar 16:30에

1
오차의 분산이 계열의 수준과 선형으로 관련되어 있으면 대수 변환이 수행됩니다. 표준 편차가 계열의 수준과 선형으로 관련되어 있으면 제곱근 변환이 수행됩니다. 선택은 잔차의 크기와 관련이 있으며 y의 수준과 관련이 있으며 첫 번째와 두 번째 모멘트의 커플 링 / 디커플링과 관련이 있습니다.
IrishStat

1
Freya, 정신 지체 +1 + 올바른 수학 +1 이 직관은 또한 L.5 메트릭스-클러스터링 을 사용하는 이유 인가?
데니스

안녕하세요 데니스, 나는 클러스터링에 대해 아무것도 몰라 두렵습니다.
Freya Harrison

10

λ=0.5

yN(Xβ,σ2In)

그러나 이것은 사전에 고정 된 값이 최적이 아닐 수 있습니다. R에서는 선형 회귀 또는 작업하는 데이터에 참여한 각 변수에 대한 Box-Cox 변환에 대한 최적의 값을 추정하는 데 도움이 되는 car라이브러리 의 함수를 고려할 수 있습니다 powerTransform(자세한 내용은 example(powerTransform)참조).


5

변수가 포아송 분포를 따르는 경우, 제곱근 변환의 결과는 가우시안에 훨씬 가깝습니다.


이 주장에 대해 몇 가지 주장을 할 수 있습니까?
utdiscant

이 매개 변수의 특정 값으로 개별 배포를 위해 많은 도움이 정말 나던 있지만하게 분포 가족 가까이 정상 가족, 매개 변수가 변화 할 때 얻을 수를 일정하게 분산이
할보 르센 kjetil B


3

제곱근을 취하는 것은 때때로 비정규 변수가 회귀 문제에서 정상 변수처럼 보이도록 옹호됩니다. 로그는 또 다른 일반적인 가능한 변환입니다.


0

Bray-Curtis로 계산 된 거리 행렬은 일반적으로 일부 데이터에 대해 메트릭스가 아니므로 음의 고유 값이 발생합니다. 이 문제를 극복하기위한 해결책 중 하나는 (로그, 제곱근 또는 이중 제곱근) 변환하는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.