비율이 독립 변수 인 경우 비율을 변환하는 가장 적절한 방법은 무엇입니까?


12

나는이 문제를 이해했다고 생각했지만 확실하지 않으며 진행하기 전에 다른 사람들과 확인하고 싶습니다.

나는 두 개의 변수를 가지고 XY. Y는 비율이며 0과 1로 제한되지 않으며 일반적으로 정규 분포입니다. X비율이며 0과 1로 제한됩니다 (0.0에서 0.6까지 실행). 나는의 선형 회귀를 실행하면 Y ~ X나는 것을 발견 X하고 Y크게 선형 적으로 관련이 있습니다. 여태까지는 그런대로 잘됐다.

그러나 나는 더 조사하고 어쩌면 Xand Y의 관계가 선형보다 곡선 적이 라고 생각하기 시작합니다 . 나에게, 그것의 관계처럼 보인다 XY가까이있을 수 있습니다 Y ~ log(X), Y ~ sqrt(X)또는 Y ~ X + X^2같은, 또는 뭔가. 관계가 곡선 형이라고 가정하는 경험적 이유가 있지만 비선형 관계가 다른 관계보다 낫다고 가정 할 이유는 없습니다.

여기에서 몇 가지 관련 질문이 있습니다. 먼저 내 X변수는 0, 0.2, 0.4 및 0.6의 네 가지 값을 사용합니다. 이 데이터를 로그 또는 제곱근 변환하면 이러한 값 사이의 간격이 왜곡되어 0 값이 다른 값과 훨씬 더 멀어집니다. 더 나은 질문 방법이 없기 때문에 이것이 내가 원하는 것입니까? 내가 받아 들인 왜곡의 수준에 따라 매우 다른 결과를 얻으므로 그렇지 않다고 가정합니다. 이것이 내가 원하는 것이 아니라면 어떻게 피해야합니까?

둘째, 이러한 데이터를 로그 변환 X하려면 0의 로그를 취할 수 없기 때문에 각 값 에 약간의 양을 추가해야합니다. 0.001과 같이 아주 적은 양을 추가하면 매우 큰 왜곡이 발생합니다. 1과 같이 더 많은 양을 추가하면 왜곡이 거의 없습니다. X변수 에 추가 할 "정확한"금액이 있습니까? 아니면 추가 부적절한 아무것도X또 다른 변화 (예를 들어, 큐브 루트) 모델 (예 : 로지스틱 회귀 분석)을 선택하는 대신에 변수?

이 문제에 관해 내가 알 수 없었던 것은주의 깊게 밟아야한다는 느낌을줍니다. 동료 R 사용자의 경우이 코드는 내 구조와 비슷한 구조로 일부 데이터를 만듭니다.

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

당신은 Y가 비율이라고 말하지만 데이터에서 6과 10 사이입니까?

그래, 나는 이것을 고정했다. 비율이 아니라 비율이다.
Bajcz

답변:


13

비율 변환에 대한 주요 질문 ( 를 기호로 사용 하지만 표기법과 동일하지는 않지만)은 일반적인 주석을 허용합니다.x

다음은 공변량 (예측 자, 독립 변수) 인 비율을 변환하는 주된 동기가 관계의 선형성에 대한 근사치를 개선하거나 탐색 모드에서 모양 또는 실제로 존재하는 것에 대한 명확한 아이디어를 얻는 경우입니다. 어떤 관계. 공변량이 (예를 들어) 대략 정규 분포인지 여부는 평소와 같이 중요하지 않습니다. (비율은 값이 인 지표 변수에 비해 상대적으로 멀지 않은데 변수는 정규 분포를 절대로 분배 할 수 없으며 비율도 반드시 제한됩니다.)0,1

비율이 정확한 0 또는 정확한 값을 얻을 수있는 경우 이 불확정 하므로 를 분명하게 배제하는 이러한 한계에 대해 변환을 정의해야합니다 . 특정 형태가 이상적으로 어떤 실체 (과학, 실용) 정당성을 필요로하지만 그것은 몇 가지 간단한 분석에서 다음과 것이 부족 넘어 의 값에 매우 민감 당신이 힌트로. 로그 0 로그 ( x + c ) clogxlog0log(x+c)c

이것은 밑이 인 로그로보기가 조금 더 쉬우 므로 일시적으로 고려 하여 가 을 매핑 합니다.c = 10 k log 10 ( x + 10 k ) x = 0 k10c=10klog10(x+10k)x=0k

따라서 은 을 , 을 약 매핑 하는 반면 은 을 , 을 보다 큰 smidgen에만 매핑 합니다., X = 0 0 X = 1 0.301 K = - 3 , C = 0.001 , X = 0 - 3 X = 1 0k=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

마찬가지로 는 이 동일한 한계에 매핑되는 것을 의미하는 반면 점점 더 좋은 근사값 은 매핑됩니다 .k=6,9,0x=10

따라서 하한은 더 작고 작은 추가 상수 바깥쪽으로 확장 되는 반면 상한은 거의 동일하게 유지됩니다. 따라서 이러한 변환은 범위의 아래쪽 부분을 크게 확장 할 수 있으며 또는 그 근처의 매우 작은 값에서 특이 치를 생성 할 수도 있습니다 .c0

간단하게이 제안 사람들은 아마 상상 (당신이 원하는 기지로 지금은) 매우 유사하게 동작한다 작은을위한 크고 명확하게 사실, 하지만 작은 모든 사실에서, . 그렇지 않으면,의 가파른과 가파른 경사 넣어 의 함수로 로 열심히 여기에 물린 수 있습니다.log(x+c)logxcxxlogxxx0

근처에서 점차 변하는 변환에 초점을 맞추는 것이 좋으며 근처에서 (다른 이유는 있지만 관련이있는 이유도) 있습니다 .x=0x=1

제곱근과 세제곱근 및 기타 거듭 제곱 는 대해 완벽하게 정의되어 있으며 근처에서 값을 늘릴 필요가있을 때 도움이됩니다 . 그러나 이러한 변형은 잘 알려져 있으며 다른 가능성에 더 초점을 맞 춥니 다.xpx=0,10

JW Tukey에 의해 대중화 된 접힌 힘의 가족 ( Exploratory Data Analysis , Reading, MA : Addison-Wesley, 1977)은 하나의 가능성이며 입니다. 단순한 연상적인 이름을 허용하는 힘을 선택하라는 강박은 없지만, (접힌 뿌리) 및 (접힌 입방체 루트) 선택은이 제품군에서 가장 유용한 구성원으로 보입니다.xp(1x)pp=1/2p=1/3

패밀리는 친숙한 로짓 변환 와 유사 하며 실제로 는 이기 때문에로 짓은 제한적인 경우 입니다. 주요 차이점은 및 대해 접힌 검정력이 정의된다는 것 입니다.p 0 x = 0 , 1 p 0logit x=logxlog(1x)p0x=0,1p0

이제 로짓을 포함하여 접힌 힘은 극한의 사례를 과 비대칭으로 처리하고 부가적인 시그 모이 드 곡선 (아래 그래프)을 첨가하고 곱하기 행동을 혼합하며 빈번한 정 성적 (반복적, 물리적, 생물학적, 경제적 여부 등)을 반영합니다. 근본적인 현상에 대한 사실101

  • 과 의 차이 는 "큰"일 수 있습니다 (확실히 만큼 변경 되지만 두 배가됩니다)0.02 x 0.010.010.02x0.01

  • 에서 까지의 차이 는 "큰 문제"도 될 수 있습니다 (확실히 만큼 변경 되지만 "없는 분수"는 도 절반입니다)0.99 x 0.01 1 - x0.980.99x0.011x

  • 말의 차이 에 는 "작은 거래"할 수있다 (물론, 에 의해 변경 도 있지만, 비례 변화는 훨씬 작습니다)0.51 x 0.010.500.51x0.01

글을 읽고 쓰는 사람들의 비율이 증가함에 따라 보편적 문해력의 점근선에 가까워 질수록 속도를 높이고 속도를 늦추는 것이 필요합니다. 따라서 시간의 곡선은 물류의 증가 또는 감소와 유사 할 수 있습니다. 과 비율이 다소 느리게 접근 한다는 사실 은 자연스럽게 비례 반응에 대한 로짓 및 유사한 모델에 대한 여러 동기 중 하나입니다. 비례 공변량에 초점을 맞추고 있지만 시그 모이 드도 여기에서 유용 할 수 있습니다.101

접힌 뿌리 또는 입방체 뿌리와 같은 접힌 힘은 로짓만큼 강판 형이 아니지만 여기서 중요한 장점은 대한 퍼지, kludge 또는 nudge없이 직접적이고 쉽게 정의된다는 것 입니다.x=0,1

가짜이지만 사실적으로 보이는 데이터 세트 (내가 좋아하는 소프트웨어로 가져 왔지만 분석은 괜찮은 점에서 간단합니다)로 전환하면 이러한 변환 중 어느 것도 실제로 도움이되지 않는 것으로 나타났습니다. 그러나 데이터를 그래프로 표시하면 조차도 강력한 플롯이며 직접 플로팅하여 볼 수도 있습니다.log(x+0.001)

두 가지 주요 요점은

  1. xlog(x+c) 종종 건의하고 무해한 것으로 여겨지는 경우가 많지만, 작은 대한 분포를 강력하게 확장 할 때마다 (부적절하게 원하는 행동이 아닌 한) 이해되지 않고 종종 부적절하지 않은 경우 위험한 변환 입니다.x

  2. 예제 데이터의 경우 내가 시도한 변환이 도움이되지 않는 것 같습니다.

동시에, 다른 가능성은 소진되지 않습니다. (특히, 나는 제곱근이나 입방체 루트를 시도하지 않았으며 다른 많은 문제에서 그것들은 명백하고 심각한 후보가 될 수 있다고 강조했다.)

첫 번째 그래프 세트는 단순히 과 모두를 얻을 수있는 비율에 대한 일부 후보 변환을 보여줍니다 . (자연 로그를 사용했지만 모양은 선택한 기준에 의존하지 않습니다).101

여기에 이미지 설명을 입력하십시오

두 번째 그래프 세트는 예제 데이터에 많은 도움이되는 변환이 없음을 보여줍니다. (비교를 위해 원래 데이터에 대한 일반 회귀 분석은 %, RMSE 입니다.)= 0.994R2=3.7=0.994

여기에 이미지 설명을 입력하십시오

작은 퍼즐. 내 비율 것으로 알려져 있지만, 그 값은 주위 에 .6 10y610

편집 : OP가 간단히 데이터를 게시했지만 나중에 제거했기 때문에 원래 데이터를 여기에 플롯 할 수 있습니다.

접힌 힘을 사용하는 다른 스레드는 다음과 같습니다.

비율 데이터 변환 : arcsin square root가 충분하지 않은 경우

회귀 : 낮은 R 제곱 및 높은 p- 값을 갖는 산점도

고도로 치우친 데이터 세트 플로팅


훌륭한 답변과 매우 철저한. 나는 내 Y비율이 아닌 비율 이라고 말해야한다고 생각합니다. 아마도 상당한 차이가있을 수 있으므로 지적하는 것이 좋습니다.
Bajcz

비율은 내가 정의한대로 제한됩니다. 설명에 고마움을 표합니다. 분석에 아무런 영향을 미치지 않습니다 (그래서 작은 세부 사항을 표시했습니다).
Nick Cox

2
추가 의견 : 원칙적으로 스플라인 또는 스무더를 사용하여 곡률 등을 확인할 수 있지만 쉽지 않은 예측 변수 수준은 4 가지뿐입니다. 귀하의 데이터에 대한 Quantile 회귀를 고려하겠습니다.
Nick Cox

또한 , 등은 오른쪽 꼬리 ( )를 왼쪽 ( ) 보다 더 많이 늘릴 수있는 경우 후보 변환 입니다. 분명히 그들은 대해 완벽하게 정의되어 있습니다. x 3 1 0 x = 0 , 1x2x310x=0,1
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.