비율 변환에 대한 주요 질문 ( 를 기호로 사용 하지만 표기법과 동일하지는 않지만)은 일반적인 주석을 허용합니다.엑스
다음은 공변량 (예측 자, 독립 변수) 인 비율을 변환하는 주된 동기가 관계의 선형성에 대한 근사치를 개선하거나 탐색 모드에서 모양 또는 실제로 존재하는 것에 대한 명확한 아이디어를 얻는 경우입니다. 어떤 관계. 공변량이 (예를 들어) 대략 정규 분포인지 여부는 평소와 같이 중요하지 않습니다. (비율은 값이 인 지표 변수에 비해 상대적으로 멀지 않은데 변수는 정규 분포를 절대로 분배 할 수 없으며 비율도 반드시 제한됩니다.)0,1
비율이 정확한 0 또는 정확한 값을 얻을 수있는 경우 이 불확정 하므로 를 분명하게 배제하는 이러한 한계에 대해 변환을 정의해야합니다 . 특정 형태가 이상적으로 어떤 실체 (과학, 실용) 정당성을 필요로하지만 그것은 몇 가지 간단한 분석에서 다음과 것이 부족 넘어 의 값에 매우 민감 당신이 힌트로. 로그 0 로그 ( x + c ) clogxlog0log(x+c)c
이것은 밑이 인 로그로보기가 조금 더 쉬우 므로 일시적으로 고려 하여 가 을 매핑 합니다.c = 10 k log 10 ( x + 10 k ) x = 0 k10c=10klog10(x+10k)x=0k
따라서 은 을 , 을 약 매핑 하는 반면 은 을 , 을 보다 큰 smidgen에만 매핑 합니다., X = 0 0 X = 1 0.301 K = - 3 , C = 0.001 , X = 0 - 3 X = 1 0k=0,c=1x=00x=10.301k=−3,c=0.001x=0−3x=10
마찬가지로 는 이 동일한 한계에 매핑되는 것을 의미하는 반면 점점 더 좋은 근사값 은 매핑됩니다 .k=−6,−9,0x=10
따라서 하한은 더 작고 작은 추가 상수 바깥쪽으로 확장 되는 반면 상한은 거의 동일하게 유지됩니다. 따라서 이러한 변환은 범위의 아래쪽 부분을 크게 확장 할 수 있으며 또는 그 근처의 매우 작은 값에서 특이 치를 생성 할 수도 있습니다 .c0
간단하게이 제안 사람들은 아마 상상 (당신이 원하는 기지로 지금은) 매우 유사하게 동작한다 작은을위한 크고 명확하게 사실, 하지만 작은 모든 사실에서, . 그렇지 않으면,의 가파른과 가파른 경사 넣어 의 함수로 로 열심히 여기에 물린 수 있습니다.log(x+c)logxcxxlogxxx↓0
근처에서 점차 변하는 변환에 초점을 맞추는 것이 좋으며 근처에서 (다른 이유는 있지만 관련이있는 이유도) 있습니다 .x=0x=1
제곱근과 세제곱근 및 기타 거듭 제곱 는 대해 완벽하게 정의되어 있으며 근처에서 값을 늘릴 필요가있을 때 도움이됩니다 . 그러나 이러한 변형은 잘 알려져 있으며 다른 가능성에 더 초점을 맞 춥니 다.xpx=0,10
JW Tukey에 의해 대중화 된 접힌 힘의 가족 ( Exploratory Data Analysis , Reading, MA : Addison-Wesley, 1977)은 하나의 가능성이며
입니다. 단순한 연상적인 이름을 허용하는 힘을 선택하라는 강박은 없지만, (접힌 뿌리) 및 (접힌 입방체 루트) 선택은이 제품군에서 가장 유용한 구성원으로 보입니다.xp−(1−x)pp=1/2p=1/3
패밀리는 친숙한 로짓 변환 와 유사 하며 실제로 는 이기 때문에로 짓은 제한적인 경우 입니다. 주요 차이점은 및 대해 접힌 검정력이 정의된다는 것 입니다.p 0 x = 0 , 1 p ≠ 0logit x=logx−log(1−x)p0x=0,1p≠0
이제 로짓을 포함하여 접힌 힘은 극한의 사례를 과 비대칭으로 처리하고 부가적인 시그 모이 드 곡선 (아래 그래프)을 첨가하고 곱하기 행동을 혼합하며 빈번한 정 성적 (반복적, 물리적, 생물학적, 경제적 여부 등)을 반영합니다. 근본적인 현상에 대한 사실101
과 의 차이 는 "큰"일 수 있습니다 (확실히 만큼 변경 되지만 두 배가됩니다)0.02 x 0.010.010.02x0.01
에서 까지의 차이 는 "큰 문제"도 될 수 있습니다 (확실히 만큼 변경 되지만 "없는 분수"는 도 절반입니다)0.99 x 0.01 1 - x0.980.99x0.011−x
말의 차이 에 는 "작은 거래"할 수있다 (물론, 에 의해 변경 도 있지만, 비례 변화는 훨씬 작습니다)0.51 x 0.010.500.51x0.01
글을 읽고 쓰는 사람들의 비율이 증가함에 따라 보편적 문해력의 점근선에 가까워 질수록 속도를 높이고 속도를 늦추는 것이 필요합니다. 따라서 시간의 곡선은 물류의 증가 또는 감소와 유사 할 수 있습니다. 과 비율이 다소 느리게 접근 한다는 사실 은 자연스럽게 비례 반응에 대한 로짓 및 유사한 모델에 대한 여러 동기 중 하나입니다. 비례 공변량에 초점을 맞추고 있지만 시그 모이 드도 여기에서 유용 할 수 있습니다.101
접힌 뿌리 또는 입방체 뿌리와 같은 접힌 힘은 로짓만큼 강판 형이 아니지만 여기서 중요한 장점은 대한 퍼지, kludge 또는 nudge없이 직접적이고 쉽게 정의된다는 것 입니다.x=0,1
가짜이지만 사실적으로 보이는 데이터 세트 (내가 좋아하는 소프트웨어로 가져 왔지만 분석은 괜찮은 점에서 간단합니다)로 전환하면 이러한 변환 중 어느 것도 실제로 도움이되지 않는 것으로 나타났습니다. 그러나 데이터를 그래프로 표시하면 조차도 강력한 플롯이며 직접 플로팅하여 볼 수도 있습니다.log(x+0.001)
두 가지 주요 요점은
xlog(x+c) 종종 건의하고 무해한 것으로 여겨지는 경우가 많지만, 작은 대한 분포를 강력하게 확장 할 때마다 (부적절하게 원하는 행동이 아닌 한) 이해되지 않고 종종 부적절하지 않은 경우 위험한 변환 입니다.x
예제 데이터의 경우 내가 시도한 변환이 도움이되지 않는 것 같습니다.
동시에, 다른 가능성은 소진되지 않습니다. (특히, 나는 제곱근이나 입방체 루트를 시도하지 않았으며 다른 많은 문제에서 그것들은 명백하고 심각한 후보가 될 수 있다고 강조했다.)
첫 번째 그래프 세트는 단순히 과 모두를 얻을 수있는 비율에 대한 일부 후보 변환을 보여줍니다 . (자연 로그를 사용했지만 모양은 선택한 기준에 의존하지 않습니다).101
두 번째 그래프 세트는 예제 데이터에 많은 도움이되는 변환이 없음을 보여줍니다. (비교를 위해 원래 데이터에 대한 일반 회귀 분석은 %, RMSE 입니다.)= 0.994R2=3.7=0.994
작은 퍼즐. 내 비율 것으로 알려져 있지만, 그 값은 주위 에 .6 10y610
편집 : OP가 간단히 데이터를 게시했지만 나중에 제거했기 때문에 원래 데이터를 여기에 플롯 할 수 있습니다.
접힌 힘을 사용하는 다른 스레드는 다음과 같습니다.
비율 데이터 변환 : arcsin square root가 충분하지 않은 경우
회귀 : 낮은 R 제곱 및 높은 p- 값을 갖는 산점도
고도로 치우친 데이터 세트 플로팅