비율 데이터 변환 : arcsin square root가 충분하지 않은 경우


20

백분율 / 비율 데이터에 대한 아크 신 제곱근 변환에 대한 (강한?) 대안이 있습니까? 현재 작업중 인 데이터 세트 에서이 변환을 적용한 후에도 현저한 이분산성이 남아 있습니다. 즉 잔차 대 적합치의 플롯은 여전히 ​​마름모꼴입니다.

의견에 응답하기 위해 편집 : 데이터는 10 %의 배수로 엔 다우먼트의 0-100 %를 투자 할 수있는 실험 참가자의 투자 결정입니다. 또한 서수 로지스틱 회귀를 사용하여 이러한 데이터를 살펴 보았지만 유효한 glm이 생성하는 결과를보고 싶습니다. 또한 arcsin square root가 내 분야의 모든 솔루션에 단일 크기로 사용되는 것으로 보이며 채용 된 대안을 찾지 못했기 때문에 미래의 작업에 유용한 대답을 볼 수있었습니다.


2
적합한 값은 무엇입니까? 당신의 모델은 무엇입니까? arcsin은 이항에 대해 (대략) 분산 안정화이지만, 비율이 0 또는 1에 가까우면 여전히 "가장자리"효과가 나타납니다. 일반 부분이 효과적으로 잘 리기 때문입니다.
probabilityislogic

1
@probabilityislogic이 말한 내용을 두 배로 줄이고 데이터의 출처를 묻습니다. 문제에 더 적절하고 해석 가능한 다른 변환 또는 다른 모델을 제안하는 것이있을 수 있습니다.
JMS

1
@prob @JMS 통계에 대해 잘 알고 있다고 생각되는 OP가 변환 경로를 먼저 시도하게하지 않는 이유는 무엇입니까? 그런 후에도 문제가 해결되지 않으면 문제가 덜 좁아지는 새로운 스레드를 시작하는 것이 유익합니다. 귀하의 의견은 그 맥락에서 적절할 것입니다.
whuber

1
재미있는 제목의 논문에 무딘 기술로 기술 된 아크 사인 제곱근 변환에는 큰 문제가 있습니다. 아크 사인은 아인 닌입니다 : 생태학에서의 비율 분석
mkt-Reinstate Monica

1
@mkt 참조 해 주셔서 감사합니다. 이것은 일반화 된 선형 모델에 대한 다음 학기 강의로 바로 넘어갔습니다.
프레야 해리슨

답변:


28

확실한. John Tukey는 EDA 에서 (증가, 일대일) 변환 패밀리를 설명합니다 . 다음 아이디어를 기반으로합니다.

  1. 매개 변수에 의해 제어되는대로 테일 (0과 1을 향하여)을 확장 할 수 있습니다.

  2. 그럼에도 불구하고 중간 ( 1/2 ) 근처의 원래 (변환되지 않은) 값을 일치 시키므로 변환을보다 쉽게 ​​해석 할 수 있습니다.

  3. 약 재 발현 대칭하려면 1/2. 경우이고 p 재 표현 인 f(p)1p 재 표현 될 것이다 f(p) .

당신이 어떤 증가 단조 함수로 시작하는 경우 g:(0,1)R 에서 미분 1/2 는 두 번째와 세 번째 기준을 충족 조정할 수 있습니다 : 단지 정의

f(p)=g(p)g(1p)2g(1/2).

p1 - p로 바꾸면 빼기가 역전 되므로 분자는 명시 적으로 대칭 (기준 (3) ) 입니다. 있는지 ( 2 ) 분모 만들기에 필요한 인자 정확하게 만족하고, 주 F ' ( 1 / 2 ) = 1 리콜 그 유도체 리니어하게 근사화 된 함수와 함수의 로컬 동작; 의 기울기 1 = 1 : 1이 되어 있음을 의미 F ( ) p1p(2)f(1/2)=1.1=1:1f(p)p(플러스 정수 1/2 ) p 충분히 확대하는 것이다 1/2. 이 원래의 값이되는 감각 "중앙 근방 일치입니다."

Tukey는 이것을 "폴딩 된" g 버전이라고 부릅니다 . 그의 가족은 전원 구성 및 변환 로그 g(p)=pλ 때, λ=0 , 우리가 고려 g(p)=log(p) .

몇 가지 예를 살펴 보겠습니다. 하면 λ=1/2 우리가 접힌 루트 또는 GET "froot를" f(p)=1/2(p1p). 하면λ=0우리가 절첩 대수 또는 "매질"f(p)=(log(p)log(1p))/4. 분명히 이것은 단지 정수 배수 인로짓변환,log(p1p).

람다 = 1, 1/2, 0 및 아크 신 그래프

이 그래프에서 파란 선은 대응하는 λ=1 , 중간에 적색 라인 λ=1/2 및 행 극단적 녹색 라인 λ=0 . 점선으로 된 금선은 아크 사인 변환입니다. arcsin(2p1)/2=arcsin(p)arcsin(1/2). 기울기 (기준(2))의 "일치"는모든 그래프가p=1/2근처에서 일치하도록합니다.p=1/2.

매개 변수 λ 의 가장 유용한 값은 10 사이 입니다. (음수 값이 λ 인 경우 꼬리를 더 무겁게 만들 수는 있지만이 용도는 드.니다.) λ=1 은 최근 값 ( f(p)=p1/2 )을 제외하고는 아무것도하지 않습니다 . 으로 λ 0에 가까워 정신과의 꼬리쪽으로 더 당겨받을 ± . 이것은 기준 # 1을 만족시킵니다. 따라서 적절한 λ 값을 선택 하면 꼬리에서이 재 표현의 "강도"를 제어 할 수 있습니다.


whuber,이 기능을 자동으로 수행하는 R 함수를 알고 있습니까?
John

1
@ John 아니요, 그렇지는 않지만 구현하기에는 간단합니다.
whuber

2
나는 그것이 기본적으로 어려운 것으로 보지 않았지만 boxcox 변형과 같은 것이 람다에 가장 적합한 선택을 자동으로 그려내는 것이 좋을 것입니다. 그렇습니다. 끔찍하지는 않습니다.
John

2
고마워 whuber, 이것은 내가 찾던 것과 정확히 일치하며 그래프는 정말 도움이됩니다. Boxcox와 같은 것이 도움이 될 것이라고 John에게 분명히 동의하지만, 이것은 작업하기에 충분히 간단 해 보입니다.
프레야 해리슨

7

포함하는 한 가지 방법은 인덱스 변환을 포함시키는 것입니다. 한 가지 일반적인 방법은 그래서, 어떤 대칭 (역) 누적 분포 함수를 사용하는 F ( X는 ) = 1 - F ( - X ) . 한 예는 자유도 가 ν 인 표준 학생 분포 입니다. 매개 변수 v 는 변환 된 변수가 얼마나 빨리 무한대로 방황하는지 제어합니다. v = 1 을 설정 하면 arctan 변환이 있습니다.F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

이것은 아크 사인보다 훨씬 더 극단적이고 로짓 변환보다 더 극단적입니다. 과 t- 분포를 사용하면 로짓 변환을 대략적으로 근사 할 수 있습니다 . 따라서 어떤 식 으로든 로짓과 프로 빗 ( ν = ) 변환 사이의 대략적인 링크와 더 극단적 인 변환으로의 확장을 제공합니다.ν8ν=

이러한 변환의 문제점 은 관찰 된 비율이 1 또는 0 를 제공한다는 것 입니다. 따라서 어떤 식 으로든 축소해야합니다. 가장 간단한 방법은 + 1 "성공"및 + 1 "실패"입니다.±10+1+1


2
여러 가지 이유로, Tukey는 +1/6을 카운트에 추가 할 것을 권장합니다. 이 답변은 내가 설명한 Tukey의 접는 방식의 특별한 경우입니다. 긍정적 인 PDF를 가진 CDF는 단조롭습니다. 대칭 CDF를 접 으면 그대로 유지됩니다.
whuber

2
나는 당신의 대략적인 근사가 어디에서 왔는지 궁금합니다. 어떻게 도착 합니까? 이것을 재현 할 수 없습니다. 나는 근사가 받아 들일 해야한다 의 극단에서 분해 P 근처 0 또는 1 ,하지만 난 그 발견 ν = 5 에 대한 로짓에 대한 더 나은 일치하는 페이지 에 가까운 1 / 2 . t ν 의 CDF 와 로짓 사이의 평균 차이 측정을 최적화 하고 있습니까? ν8p01ν=5p1/2tνlogit
whuber

2
@ whuber-당신은 나에게 너무 많은 신용을 제공합니다. 내 제안이의 PDF의 그래프를보고에 기반 , 물류의 PDF 그래프 F ( X ) = E - X ( 1 + E - X ) - (2) , 표준 정규 PDF의 그래프. 5 자유도는 과도한 첨도와 일치하며 더 좋을 수도 있습니다. t8f(x)=ex(1+ex)25
chanceislogic

5
@whuber 카운트에 1/6을 추가하는 한 가지 이유는 결과 "시작된"카운트가 Jeffreys와의 이항 분포를 가정 할 때 중앙값의 후방과 근사하기 때문입니다 (여기서 여기에 대해 조금 씁니다 : sumsar.net/blog/2013/09/ 베이 즈-트위스트-투키-플러그 ). 그러나 이것이 Tukey의 1/6 추가 이유인지는 모르겠습니다. 그의 이유가 무엇인지 아십니까?
Rasmus Bååth

4
@Rasmuth EDA에서 , p. 496, Tukey는 "우리가 권장하는 [사용법]에는 변명의 여지가 있지만,이 변명은 (i) 간접적이고 (ii) 더 복잡한 고려 사항을 포함하므로 더 이상 언급하지 않을 것입니다. 우리가 권장하는 것은 1 / 6을 모든 스플릿 카운트에 "따라서 시작"합니다. " (모든 값의 "분할 계수" 의 수 X < X 플러스 절반 수 X I = X 데이터의 일괄 처리 ( X ) .) 나는이 "복잡한 고려 사항"을 통해 오는 기억하지 않습니다 다른 Tukey 논문이나 책에서 내가 읽었지만 항상 확률 플롯 포인트와 관련이 있다고 생각했습니다.xxi<xxi=x(xi)
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.