이진 데이터의 지표 변수 : {-1,1} vs {0,1}


10

나는 이진 처리 할당 지시자 와 함께 실험 / 무작위 통제 시험의 맥락에서 처리-공변량 상호 작용에 관심이있다 .T

특정 방법 / 소스에 따라 치료 대상자와 치료하지 않은 대상에 대해 각각 및 을 모두 보았습니다 .T={1,0}T={1,1}

{1,0} 또는 을 사용할 때 경험할만한 규칙이 {1,1}있습니까?

해석은 어떤면에서 다른가?


FWIW ...이 첫 번째 링크는 다양한 코딩 체계에 대한 포괄적 인 개요를 제공합니다 ... ats.ucla.edu/stat/r/library/contrast_coding.htm 이 두 번째 링크는 표시기 (더미), 효과 및 직교 (대비) 코딩에 대해 설명합니다. ... faculty.cas.usf.edu/mbrannick/regression/anova1.html
Mike Hunter

답변:


10

지표 변수의 추정량과 절편의 해석은 서로 다릅니다. 시작하겠습니다 :{1,0}

다음 모델이 있다고 가정 해보십시오.

yi=β0+treatmentβ1

어디

treatment={0if placebo1if drug

이 경우 대해 다음 공식으로 끝납니다 .yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

따라서 의 해석은 위약의 효과이고 β 1 의 해석은 위약의 효과와 약물의 효과의 차이입니다. 실제로, β 1 을 약물이 제공하는 개선으로 해석 할 수 있습니다 .β0β1β1


이제 보자 :{1,1}

그런 다음 (다시) 다음 모델이 있습니다.

yi=β0+treatmentβ1

그러나 어디서

treatment={1if placebo1if drug

이 경우 대해 다음 공식으로 끝납니다 .yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

여기서 해석은 은 위약 효과와 약물 효과의 평균이며 β 1 은 두 치료의 평균과 그 평균의 차이입니다.β0β1


그래서 당신은 어느 것을 사용합니까?

{ 0 , 1 } 에서 의 해석 은 기본적으로 기본입니다. 일부 표준 치료를 설정하고 다른 모든 치료 (여러 개가있을 수 있음)가 해당 표준 / 기준선과 비교됩니다. 특히 다른 공변량을 추가하기 시작하면 표준 의학적 질문과 관련하여 해석하기 쉽습니다. 이러한 약물은 위약 또는 기존 약물과 어떻게 비교됩니까?β0{0,1}

그러나 결국 그것은 모두 해석의 문제입니다. 위에서 설명했습니다. 따라서 가설을 평가하고 결론을 이끌어내는 해석이 어떤 해석인지 확인해야합니다.


6
-1, 1 코딩을 사용할 때 상수는 처리 된 그룹의 응답자 수가 제어 그룹의 응답자 수와 동일한 평균입니다.
Maarten Buis

그것은의 평균입니다 @MaartenBuis 디자인이 균형 IFF에 있지만, 그렇지 않은 경우는 여전히 무슨 의미가있는 두 그룹 수단의 평균입니다. 나는 이것을 반영하기 위해 표현을 바꾸었다. y
JAD

9
도움이됩니다. 나는 적어도 두 가지 이유 때문에 (원래 질문에서와 같이) 더미가 아닌 단어 표시기의 사용을 권장합니다 . 첫째,“성별 더미”와 같은 용어가 덜 기술적 인 사람들에 의해 비난이나 공격으로 잘못 해석되어 프레젠테이션이 매우 나빠지는 이야기가 너무 많이 들었습니다. 둘째, 더미 라는 용어 는 전체 장치를 퍼지 또는 닷지처럼 보이게하는 반면 완벽하게 깨끗하고 우아한 방법입니다. 일부 분야에서는 확고한 관행을 바꿀 가능성이별로 없지만 여기서 시도하고 있습니다.
Nick Cox

더 전문적으로 들린다. 또한 실제로 수행중인 작업에 대한 더 나은 설명입니다.
JAD

2
다행입니다. 다음은 간단한 설명 방법입니다. 표시하기 때문에 표시기라고합니다!
Nick Cox

6

선형 회귀와 관련하여 은 이진 변수를 코딩하는보다 자연스럽고 표준적인 방법입니다 (회귀의 오른쪽에 배치하든 상관없이). @Jarko Dubbeldam이 설명했듯이 물론 다른 해석을 사용할 수 있으며 계수의 의미가 다릅니다.xi{0,1}

출력 변수를 부호화하는 예를 다른 방법으로 정제하여 프로그래밍 또는 수학 기초 도출 할 때 표준 지원 벡터 머신 . (라이브러리를 호출 할 때 라이브러리가 예상하는 형식 (아마도 0, 1 형식)으로 데이터를 전달하려고합니다.)yi{1,1}

수행 / 사용중인 모든 작업에 표준 표기법을 사용하십시오.


절편 항이있는 모든 종류의 선형 모형의 경우 두 방법은 간단한 선형 변환과 관련이 있다는 점에서 동일합니다. 수학적으로, 데이터 행렬 를 사용하는지 또는 데이터 행렬 을 사용하는지 ~ X = X A ( 여기서 A 는 전체 순위) 인지는 중요하지 않습니다 . 일반화 된 선형 모델에서 예상 된 계수 어느 방법은 선형 변환에 의해 관련된다 및 피팅 값 Y는 동일하다.XX~=XAAAy^


+1, 이 사용 된 설정을 생각할 수 없었습니다 . {1,1}
JAD

AdaBoost는 을 사용하는 또 다른 예입니다.yi{1,1}
Francis

5
일반적으로 은 부호 기능을 적용하기위한 적절한 방법으로 만들기 때문에 분류에 주로 사용 된다고 말할 수 있습니다. {1,1}
JAD

@matthewgunn 저자는 공변량, 즉 출력이 아닌 입력을 말하고 있습니다. {-1, 1}은 출력에 대한 지원 벡터에 적합하지만 입력에는 중요하지 않습니다. 여기를 참조하십시오 : en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
Francisco Arceo

@FranciscoArceo Point 촬영; 좀 더 정확하게 편집했습니다.
Matthew Gunn

2

이것은 더 추상적이며 (아마도 쓸모가 없지만)이 두 표현은 수학적으로 실제로 그룹 표현이며 그 사이에 동형이 있습니다.

TT1T2T1T2Z21,01,1ab=1(a+b)ab=abϕ(a)=2a1

pTTTpp=pp+(1p)(1p)t(p)=2p1tt=ttt


이것은 인상적이지만 {-1, 1}과 {0, 1} 사이의 유효한 통신 관계는 일대일이어야한다는 것을 알기에 충분합니다. 고등학교 수학 이외의 다른 것을 호출 할 필요가 없습니다. 우리는 반드시 동일한 정보에 대해 이야기하고 있으며, 다르게 코딩되었습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.