답변:
손실되는 정보 : 변수에 따라 다릅니다. 일반적으로 이분법을 사용하면 한 변수와 다른 변수 사이에 직선 효과가 있다고 주장합니다. 예를 들어, 암에 관한 연구에서 오염 물질에 대한 지속적인 노출 측정치를 고려하십시오. "높음"과 "낮음"으로 이분법을 적용하면이 값이 유일한 두 가지 값이라고 주장 할 수 있습니다. 암의 위험이 높고, 암의 위험이 낮습니다. 그러나 위험이 잠시 동안 꾸준히 증가했다가 평평해진 다음 다시 상승하여 결국 높은 가치로 상승하면 어떻게 될까요? 모든 것이 사라집니다.
당신이 얻는 것 : 더 쉽습니다. 이분법 변수는 통계적으로 다루기가 훨씬 쉽습니다. 그렇게 할 이유가 있습니다-연속 변수가 어쨌든 두 개의 명확한 그룹에 속한다면, 처음에는 변수의 자연스러운 형태가 아니라면 이분법을 피하는 경향이 있습니다. 필드 가 이분법으로 변수를 이분법 화 하는 경우에도 유용 합니다. 예를 들어, 많은 사람들이 400 개 미만의 CD4 세포 수를 HIV에 대한 임계 임계 값으로 생각합니다. 따라서 연속 CD4 카운트 변수도 유지하지만 400 이상 / 400 이하의 변수는 종종 0/1입니다. 이것은 당신의 연구를 다른 사람들과 조화시키는 데 도움이됩니다.
피터와는 약간 동의하지 않습니다. 연속 변수를 범주로 나누는 것이 조잡한 이분법보다 훨씬 더 합리적이지만, 나는 양자화 분류에 반대합니다. 이러한 분류는 의미있는 해석을하기가 매우 어렵습니다. 생물학적 또는 임상 적으로 잘 지원되는 분류가 가능한지 확인하는 것이 첫 번째 단계이며, 일단 옵션이 소진되면 Quantile을 사용해야합니다.
이분법은 데이터 분석에 마법의 사고를 추가합니다. 이것은 거의 좋은 생각이 아닙니다.
Royston, Altman 및 Sauerbrei 의 기사 는 왜 나쁜 생각인지에 대한 이유입니다.
내 자신의 생각 : 의존성 변수, 예를 들어 2.5kg의 출생 체중 (항상 수행 됨)을이 분화하면 1.5kg에서 태어난 아기와 같이 2.49kg에서 태어난 아기와 2.51에서 태어난 아기를 치료하고 있습니다. 3.5kg 인 사람과 마찬가지로 이것은 말이되지 않습니다.
더 나은 대안은 종종 Quantile 회귀입니다. 나는 최근에 NESUG를 위해 이것에 대해 썼습니다. 그 종이는 여기
위의 예외는 카테고리가 실질적으로 동기 부여 된 경우입니다. 예를 들어 운전 행동으로 작업하는 경우 운전의 법적 연령에 따라 분류하는 것이 합리적입니다.
@ Epigrad 's와 @ Peter 's 답변을 모두 좋아하고 지원합니다. 방금 간격 변수를 이진으로 비닝하면 (잠재적으로) 메트릭 변수를 서수로 만들 수 있습니다. 이진 변수를 사용하면 평균 또는 분산을 계산하는 것이 부적절하며 (일부 사람들이하는 것처럼), 다른 곳 에서 언급했듯이 일부 다변량 분석은 이론적으로 또는 논리적으로 적용되지 않습니다. 예를 들어, 이진 변수와 함께 중심 / 구분 계층 적 군집화 또는 요인 분석을 사용하는 것이 올바르지 않다고 생각합니다.
조사의 클라이언트는 종종 하나의 연속적인 특성보다는 소수의 클래스로 생각하는 것이 더 간단하고 정보가 덜 안개가 났고 (거짓으로) 더 부피가 커지기 때문에 출력에서 변수를 이분법으로 만들도록 강요합니다.
그러나 이분법이 필요한 경우가 있습니다. 예를 들어, 바이 모달리티가 강한 경우 또는 분석 (예 : MAMBAC 또는 기타)에서 2 개의 잠재 클래스가 존재하는 경우.