지속적인 데이터에서 범주 형으로가는 것이 항상 잘못입니까?

데이터를 설정하는 방법에 대해 읽을 때 자주 접하는 한 가지 점은 일부 연속 데이터를 범주 형 데이터로 변환하는 것은 좋은 생각이 아니라는 것입니다. 임계 값이 잘못 결정되면 잘못 결론을 내릴 수 있기 때문입니다.

그러나 현재 일부 데이터 (전립선 암 환자의 PSA 값)가 있습니다. 여기서 일반적인 합의는 4 세 미만이면 아마도 없을 수도 있고, 위 이상이면 위험에 처할 것이라는 것입니다. 10과 20 이상이라면 아마 가지고있을 것입니다. 그런 것. 이 경우 연속 PSA 값을 0-4, 4-10 및> 10이라고하는 그룹으로 분류하는 것이 여전히 올바르지 않습니까? 또는 실제로 임계 값이 "잘 결정"되었기 때문에 실제로 괜찮습니까?

categorical-data continuous-data

— 덴버 당
소스

(평소대로) 다릅니다. 예를 들어, 의사가 의사 결정을 내리는 방법을 연구하고 이러한 범주를 기반으로 의사 결정을 내리는 경우 동일한 범주를 사용하는 것이 좋습니다. PSA 상승과 관련된 생물학적 결과를 연구하고 있다면 PSA를 전혀 분류하고 싶지 않을 것입니다. 따라서 당신의 광범위한 질문에 대한 명확한 대답은 없습니다.

— whuber

데이터로 무엇을하려고합니까? 일반적으로 당신이 알아 내고자하는 것과 관련이있는 경계가 아니므로 직접 손에 넣는 것이 질문을 구하는가?

— RemcoGerlich

로지스틱 회귀 모델에 대한 데이터를 설정하고 있습니다. 따라서 주요 질문은 실제로 연속 데이터를 사용해야하는지 아니면 이산 데이터를 대신 사용해야하는지입니다.

— Denver Dang

'연속적인'데이터가 무엇인지는 분명하지 않습니다. 실제로 존재하는 것은 아닙니다. 무한정의 측정 / 통계와 같은 것은 없습니다.

— JimmyJames

@BillHorvath 그래, 나는 의사가 아니므로, 이것이 어떻게 결정되었는지는 확실하지 않다. Wiki 페이지를 살펴보면 다음과 같은 내용이 있습니다. "4 ~ 10 ng / mL (밀리그램 당 나노 그램)의 PSA 수준은 의심스러운 것으로 간주되며 반복 테스트를 통해 비정상적인 PSA를 확인하는 것을 고려해야합니다. " "저 위험 : PSA <10, 글리슨 점수 ≤ 6 및 임상 단계 ≤ T2a 중간 위험 : PSA 10-20, 글리슨 점수 7, 또는 임상 단계 T2b / c 고위험 : PSA> 20 , 글리슨은 ≥ 8 또는 임상 단계 ≥ T3 "점수

— 덴버 젠장

답변:

임계 값에서 급격한 불연속성이 있습니까?

예를 들어, 값이 3.9 및 4.1 인 두 명의 환자 A와 B가 있고 값이 6.7 및 6.9 인 다른 두 명의 환자 C와 D가 있다고 가정하십시오. 는 IS 차이 C와 D 사이의 대응 차이보다 훨씬 큰 A 및 B 사이의 암의 가능성은?

그렇다면, 이산화는 의미가 있습니다.

그렇지 않은 경우 데이터 를 이해하는 데 임계 값이 의미가 있을 수 있지만 통계적으로 의미가있는 "잘 결정되지 않은"것입니다. 분별하지 마십시오. 대신 테스트 점수를 "있는 그대로"사용하고 비선형 성이 의심되는 경우 splines를 사용하십시오 .

이것은 매우 권장됩니다.

— 스테판 콜라 사
소스

맨 아래의 해당 링크는 큰 포인트로 가득합니다. 이 답변의 미래 독자는 확인해야합니다.

— eric_kernfeld

제안 된 구분에서 결과가 크게 증가하지 않고 그룹 내에서 결과가 비교적 균일하지 않은 경우, 이산화는 의미가 없다고 생각합니다. 그렇지 않으면, 기능 @Stephan Kolassa에서 "점프"를 접근하는 더 나은 방법이있다

— LSC

표준 답변은 프로세스에서 정보를 잃기 때문에 항상 나쁘다는 것입니다. 자연스러운 간격 데이터를 가져 와서 범주화하여 얻을 수있는 경우가 있다고 생각하기는 어렵습니다.

— 사용자
소스

적절한 x는 DV와의 특정 x의 관계에서 진정한 불연속성이 존재하고 "범주"내에서 결과가 비교적 균질 한 경우가 될 것이다.

— LSC