데이터를 설정하는 방법에 대해 읽을 때 자주 접하는 한 가지 점은 일부 연속 데이터를 범주 형 데이터로 변환하는 것은 좋은 생각이 아니라는 것입니다. 임계 값이 잘못 결정되면 잘못 결론을 내릴 수 있기 때문입니다.
그러나 현재 일부 데이터 (전립선 암 환자의 PSA 값)가 있습니다. 여기서 일반적인 합의는 4 세 미만이면 아마도 없을 수도 있고, 위 이상이면 위험에 처할 것이라는 것입니다. 10과 20 이상이라면 아마 가지고있을 것입니다. 그런 것. 이 경우 연속 PSA 값을 0-4, 4-10 및> 10이라고하는 그룹으로 분류하는 것이 여전히 올바르지 않습니까? 또는 실제로 임계 값이 "잘 결정"되었기 때문에 실제로 괜찮습니까?