이분법 변수의 효과는 무엇입니까?


14
  • 변수를 이분법화할 때 프로세스에서 어떤 정보가 손실됩니까?
  • 이분법이 분석에 어떻게 도움이됩니까?

Gelman과 Park는 연속 변수에서 세 가지 범주를 만드는 방법을 두 가지가 아닌 비교 하는 기사 를 가지고 있습니다 . 일반적으로 아래의 다른 사람들이 설명하는 이유로 변수를 연속으로 두는 것이 가장 좋습니다.
Michael Bishop

답변:


10

손실되는 정보 : 변수에 따라 다릅니다. 일반적으로 이분법을 사용하면 한 변수와 다른 변수 사이에 직선 효과가 있다고 주장합니다. 예를 들어, 암에 관한 연구에서 오염 물질에 대한 지속적인 노출 측정치를 고려하십시오. "높음"과 "낮음"으로 이분법을 적용하면이 값이 유일한 두 가지 값이라고 주장 할 수 있습니다. 암의 위험이 높고, 암의 위험이 낮습니다. 그러나 위험이 잠시 동안 꾸준히 증가했다가 평평해진 다음 다시 상승하여 결국 높은 가치로 상승하면 어떻게 될까요? 모든 것이 사라집니다.

당신이 얻는 것 : 더 쉽습니다. 이분법 변수는 통계적으로 다루기가 훨씬 쉽습니다. 그렇게 할 이유가 있습니다-연속 변수가 어쨌든 두 개의 명확한 그룹에 속한다면, 처음에는 변수의 자연스러운 형태가 아니라면 이분법을 피하는 경향이 있습니다. 필드 가 이분법으로 변수를 이분법 화 하는 경우에도 유용 합니다. 예를 들어, 많은 사람들이 400 개 미만의 CD4 세포 수를 HIV에 대한 임계 임계 값으로 생각합니다. 따라서 연속 CD4 카운트 변수도 유지하지만 400 이상 / 400 이하의 변수는 종종 0/1입니다. 이것은 당신의 연구를 다른 사람들과 조화시키는 데 도움이됩니다.

피터와는 약간 동의하지 않습니다. 연속 변수를 범주로 나누는 것이 조잡한 이분법보다 훨씬 더 합리적이지만, 나는 양자화 분류에 반대합니다. 이러한 분류는 의미있는 해석을하기가 매우 어렵습니다. 생물학적 또는 임상 적으로 잘 지원되는 분류가 가능한지 확인하는 것이 첫 번째 단계이며, 일단 옵션이 소진되면 Quantile을 사용해야합니다.


안녕하세요 @epigrad. Quantile 회귀 분석은 상당히 쉬운 해석이라고 생각합니다. "mean"을 "XXX percentile"로 대체한다는 점을 제외하면 일반적인 OLS 회귀와 매우 유사합니다.
Peter Flom-Monica Monica 복원

@PeterFlom 죄송합니다. 더 명확해야합니다. 임상 / 생물학적 증거로 구성된 범주와 비교할 때 임상 / 생물학적 관련 해석으로 작성하기가 어렵다는 것을 알게되었습니다. 이것은 필자의 필드 특정 편견이다.
Fomite

오, 알겠습니다, @epigrad. 이 사례를 포함하도록 답변을 편집하겠습니다.
Peter Flom-Monica Monica 복원

1
EpiGrad와 @PeterFlom은 "quantile regression"을 다르게 해석하는 것으로 보입니다. EpiGrad는 X 변수를 Quantile로 정의 된 그룹으로 나누는 것에 대해 이야기하고 Peter Flom은 평균 대신 응답의 90 번째 Quantile을 모델링하는 것에 대해 이야기합니다.
Aniko

@Aniko 그것도 가능할 것입니다. Peter가 데이터를 Quantile로 분류하고 회귀 모델에서 사용하는 것을 의미한다고 생각했을 것입니다. 내 분야에서 흔한 (그리고 성가신) 경향. 그렇지 않을 수도 있습니다.
Fomite

9

이분법은 데이터 분석에 마법의 사고를 추가합니다. 이것은 거의 좋은 생각이 아닙니다.

Royston, Altman 및 Sauerbrei 의 기사 는 왜 나쁜 생각인지에 대한 이유입니다.

내 자신의 생각 : 의존성 변수, 예를 들어 2.5kg의 출생 체중 (항상 수행 됨)을이 분화하면 1.5kg에서 태어난 아기와 같이 2.49kg에서 태어난 아기와 2.51에서 태어난 아기를 치료하고 있습니다. 3.5kg 인 사람과 마찬가지로 이것은 말이되지 않습니다.

더 나은 대안은 종종 Quantile 회귀입니다. 나는 최근에 NESUG를 위해 이것에 대해 썼습니다. 그 종이는 여기

위의 예외는 카테고리가 실질적으로 동기 부여 된 경우입니다. 예를 들어 운전 행동으로 작업하는 경우 운전의 법적 연령에 따라 분류하는 것이 합리적입니다.


5
아름답게 피터가 말했다. 분석에서 이분법이 좋은 상황을 상상할 수 없습니다.
Frank Harrell

5

@ Epigrad 's와 @ Peter 's 답변을 모두 좋아하고 지원합니다. 방금 간격 변수를 이진으로 비닝하면 (잠재적으로) 메트릭 변수를 서수로 만들 수 있습니다. 이진 변수를 사용하면 평균 또는 분산을 계산하는 것이 부적절하며 (일부 사람들이하는 것처럼), 다른 곳 에서 언급했듯이 일부 다변량 분석은 이론적으로 또는 논리적으로 적용되지 않습니다. 예를 들어, 이진 변수와 함께 중심 / 구분 계층 적 군집화 또는 요인 분석을 사용하는 것이 올바르지 않다고 생각합니다.

조사의 클라이언트는 종종 하나의 연속적인 특성보다는 소수의 클래스로 생각하는 것이 더 간단하고 정보가 덜 안개가 났고 (거짓으로) 더 부피가 커지기 때문에 출력에서 ​​변수를 이분법으로 만들도록 강요합니다.

그러나 이분법이 필요한 경우가 있습니다. 예를 들어, 바이 모달리티가 강한 경우 또는 분석 (예 : MAMBAC 또는 기타)에서 2 개의 잠재 클래스가 존재하는 경우.


당신의 주장을 이해하는데 어려움을 겪고 있습니다. 고객이 우리가 나쁜 통계 실습에 참여하기를 원한다면 우리는 두 번 생각해야합니다. 참고 : 트리 코토 마이즈는 단어가 아닙니다. 이분법 = 이분법 (2 개) + 끔찍한 (잘라 내기), 사용하는 경우 3 분화 / 삼각형이됩니다.
Frank Harrell

내담자의 통행은 논쟁이 아니라 애도였다. 그리스어는 옳습니다. 나는 그 단어를 제거했다.
ttnphns

1
감사. 나는 고객과의 집중적 인 교육 과정을 통해 통계적으로 애도를 시정 조치로 바꾸려고 노력한다.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.