이항 종속 및 독립 변수를 사용한 로지스틱 회귀


14

종속 변수와 독립 변수가 모두 이진 인 경우 로지스틱 회귀 분석을 수행하는 것이 적절합니까? 예를 들어 종속 변수는 0과 1이고 예측 변수는 대비 코딩 된 변수 -1과 1?

답변:


6

그렇게하지 말아야 할 이유는 없지만 두 가지주의 할 점이 있습니다.

  1. 어느 것이 어느 것인지 분석하는 동안주의 깊게 추적하십시오. 대규모 프로젝트에서는 쉽게 길을 잃고 잘못된 결과를 얻을 수 있습니다.

  2. 배당률이 아닌 회귀 추정값을보고하기로 선택한 경우 보고서 에서 코딩 체계를 명확하게 하여 독자는 둘 다 0,1로 코딩되었다고 가정 할 때 독자적으로 부정확 한 OR을 생성하지 않습니다.

기본적으로 보일지 모르지만 두 가지 문제로 인해 출판 된 논문으로 작성되었습니다.


그렇다면 데이터 파일을 6 개의 개별 사례로 분리하고 각 데이터 세트 내에서 대조 코딩 된 예측 변수로 개별 비교를 실행하는 것이 적절할까요?
upabove

솔직히이 두 번째 비트에 대해 무엇을 요구하는지 잘 모르겠습니다. 달성하고자하는 것을 클레어 할 수 있습니까?
Fomite

주제 조건 내에 3과 4 사이의 데이터 세트가 있습니다. 각각의 모든 효과를 테스트하고 싶지만 모든 상호 작용이 포함 된 단일 회귀는 관심있는 정보를 많이 그리워하지 않습니다. 대신 조건별로 데이터를 별도의 데이터 세트로 나누고 대조적으로 각 데이터 세트에 집중된 로지스틱 회귀를 실행합니다. 차이를 코딩 코드는 내가 관심.
upabove

내가 코딩 방법에 대한 더 많은 정보를 원하시면 대비 코드는 여기를 참조하십시오 stats.stackexchange.com/questions/14546/...
upabove

11

명확성을 위해, "이진"이라는 용어는 일반적으로 1 대 0 코딩에만 사용됩니다. 임의의 2 값 코딩에 적합한보다 일반적인 단어는 "이분법 적"이다. 이분법 적 예측 변수는 선형 회귀 분석과 같이 로지스틱 회귀 분석에 오신 것을 환영합니다. 두 개의 값만 있기 때문에 값을 요인으로 입력할지 공변량으로 입력할지에 차이가 없습니다.


5

일반적으로 예측 변수를 0-1로 코드화하면 해석에 도움이되지만 그와는 별도로 (그리고 필요하지 않다는 점은) 아무 문제가 없습니다. 다른 (우발성 테이블 기반) 접근 방식이 있지만 올바르게 회상하면이 방법은 (일부 형태의) 로지스틱 회귀와 같습니다.

간단히 말해서 : 나는 이것을하지 않을 이유가 없다.


감사! 그리고 만약 3 개의 대조 코딩 된 예측자가 있고 그것들을 모두 0-1로 코딩한다면 그것들은 직교하지 않을 것입니다. 예를 들어 4 개의 범주가 있고 세 개의 코드는 L1 : 1, -1,0,0 L2 : 0,1, -1,0, L3 : 0,0,1, -1입니다. 그게 문제입니까?
upabove

L- 행렬 (L1, L2, L3)의 예는 각 범주가 다음 범주와 비교 되는 반복되는 대비 입니다. 이러한 대비 예측 변수는 직교 형이거나 이진 형식이 아닙니다 (0-1로 코딩 됨). 실제로, 그 값은 .75 대 -.25 (1 번째 변수), .5 대 -.5 (2 번째 변수), .25 대 -.75 (3 번째 변수)
ttnphns

3

또한 예측 변수가 두 개 이상인 경우 로지스틱 또는 다중 회귀 분석에서도 다중 공선 성 문제가 발생할 가능성이 높습니다. 그러나 모든 이진 변수 (예 : 코딩 된 (0,1))와 함께 로지스틱 회귀를 사용하면 아무런 해가 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.