모델에서 값을 사용하기 전에 연속 예측 변수를 가져 와서 분해 (예 : 5 분위수)하는 데 어떤 가치가 있는지 궁금합니다.
변수를 비닝하면 정보가 손실되는 것 같습니다.
- 이것이 비선형 효과를 모델링 할 수 있도록하는 것입니까?
- 변수를 연속적으로 유지하고 실제로 직선 관계가 아닌 경우 데이터에 가장 잘 맞는 커브를 만들어야합니까?
모델에서 값을 사용하기 전에 연속 예측 변수를 가져 와서 분해 (예 : 5 분위수)하는 데 어떤 가치가 있는지 궁금합니다.
변수를 비닝하면 정보가 손실되는 것 같습니다.
답변:
당신은 둘 다 맞습니다. 연속 변수 비닝에 대한 긴 문제 목록을 보려면 Frank Harrell의 페이지를 참조 하십시오 . 빈을 몇 개 사용하면 예측 변수에 많은 정보를 버립니다. 당신이 많은 것을 사용한다면, 당신은 매끄럽고, 선형 적이 지 않더라도 관계적이고, 많은 자유도를 사용해야하는 것에 흔들림을하는 경향이 있습니다. 일반적으로 예측 변수에 다항식 ( ) 또는 스플라인 (부드럽게 결합하는 부분 다항식)을 사용하는 것이 좋습니다. 비닝은 컷 포인트에서 반응의 불연속 (예 : 온도가 끓는 온도 또는 운전을위한 법적 연령) 및 반응이 평평 할 때 실제로 좋은 아이디어입니다.
그 가치? — 음, 곡률을 생각하지 않고 곡률을 고려하는 빠르고 쉬운 방법이며, 모델이 사용하는 용도에 적합 할 수 있습니다. 예측 변수 수에 비해 많은 데이터가있을 때 모든 것이 잘 작동하는 경향이 있으며 각 예측 변수는 여러 범주로 나뉩니다. 이 경우 각 예측 자 대역 내에서 응답 범위가 작고 평균 응답이 정확하게 결정됩니다.
[댓글에 대한 답변으로 수정 :
때로는 연속 변수에 대한 필드 내에서 사용되는 표준 컷오프가 있습니다. 예를 들어, 의약품 혈압 측정은 낮음, 중간 또는 높음으로 분류 될 수 있습니다. 모델을 제시하거나 적용 할 때 이러한 컷오프를 사용하는 데는 여러 가지 이유가있을 수 있습니다. 특히 의사 결정 규칙은 종종 모델에 들어가는 것보다 적은 정보를 기반으로하므로 적용하기가 간단해야합니다. 그러나 이러한 컷오프는 모형에 적합 할 때 예측 변수를 비닝하는 데 적합하지 않습니다.
혈압에 따라 일부 반응이 지속적으로 변한다고 가정하십시오. 연구에서 고혈압 그룹을 예측 변수로 정의하면 추정 효과는 해당 그룹의 개인의 특정 혈압에 대한 평균 반응입니다. 그건 하지특별한 조치를 취하지 않는 한 일반 인구에서 고혈압 환자 또는 다른 연구에서 고혈압 환자의 평균 반응 추정치. 일반 인구의 혈압 분포를 알고 있다면 상상할 수 있듯이 혈압을 모델로 한 모델의 예측을 기반으로 일반 인구의 고혈압 환자의 평균 반응을 계산하는 것이 좋습니다. 연속 변수. 조잡한 비닝은 모델을 대략 일반화 할 수 있습니다.
일반적으로 컷오프 간의 응답 동작에 대한 질문이있는 경우 가장 적합한 모델을 먼저 맞추고이를 사용하여 응답하십시오.]
[발표에 관해서; 나는 이것이 청어라고 생각합니다.
(1) 표현의 용이성은 잘못된 모델링 결정을 정당화하지는 않습니다. (그리고 비닝이 좋은 모델링 결정 인 경우에는 추가로 정당화 할 필요가 없습니다.) 확실히 이것은 자명합니다. 표현하기가 어렵 기 때문에 모델에서 중요한 상호 작용을 취하는 것을 권장하는 사람은 없습니다.
(2) 어떤 종류의 모델을 적합하든 해석에 도움이된다고 생각되면 결과를 범주별로 표시 할 수 있습니다. 그러나 ...
(3) 위에서 언급 한 이유로 잘못 해석되지 않도록주의해야합니다 .
(4) 실제로 비선형 반응을 나타내는 것은 어렵지 않습니다. 개인적 견해, 분명히, 청중은 다릅니다. 그러나 나는 맞춤 반응 값 대 예측 변수 값의 그래프가 곡선이기 때문에 누군가를 당혹스럽게 본 적이 없습니다. 상호 작용, 로짓, 랜덤 효과, 다중 공선 성 등은 설명하기가 훨씬 어렵습니다.]
[@Roland가 제기 한 추가 포인트는 예측 변수의 측정 정확도입니다. 그는 분류가 특히 정확하지 않을 때 적절할 것이라고 제안합니다. 상식은 당신이 더 적은 데이터를 정밀하게 재 진술에 의해 문제를 개선하지 않는 것이 좋습니다 수, 상식 잘 될 것이다 : "양적 변수의 Dichotomization의 연습에"맥 칼럼 등 (2002), 심리적 방법 , 7 , 1, pp17–19.]
임상의로서 나는 대답이 당신이하고 싶은 것에 달려 있다고 생각합니다. 가장 잘 맞거나 가장 잘 조정하려면 연속 및 제곱 변수를 사용할 수 있습니다.
비 통계적 지향 대상에 대한 복잡한 연관을 설명하고 전달하려면 분류 된 변수를 사용하는 것이 좋습니다. 마지막 10 진수에서 약간 편향된 결과를 제공 할 수 있습니다. 비선형 연관성을 표시하기 위해 적어도 세 가지 범주를 사용하는 것이 좋습니다. 대안은 특정 지점에서 그래프와 예측 결과를 생성하는 것입니다. 그런 다음 흥미로운 각 연속 공변량에 대한 그래프 계열을 생성해야 할 수도 있습니다. 너무 많은 편견을 두려워하는 경우 두 모델을 모두 테스트하여 차이가 중요한지 여부를 확인할 수 있다고 생각합니다. 실용적이고 현실적이어야합니다.
많은 임상 상황에서 우리의 계산은 정확한 데이터를 기반으로하지 않으며, 예를 들어 성인에게 약을 처방 할 때 킬로그램 당 정확한 mg (수술과 치료 중에서 선택할 수있는 비유)을 사용하지 않습니다. 말도 안됩니다).
이전 포스터에서 언급했듯이 일반적으로 연속 변수를 이분법 화하지 않는 것이 가장 좋습니다. 그러나 귀하의 질문에 대답하여 연속 변수를 이분법 화하면 이점이있는 경우가 있습니다.
예를 들어, 주어진 변수에 모집단의 상당 부분에 대한 결 측값이 포함되어 있지만 예측 성이 높고 결 측값 자체에 예측값이있는 경우. 예를 들어, 신용 점수 매기기 모델에서 변수를 고려해 봅시다. 평균 회전 신용 잔액 (이것은 기술적으로 연속적이지는 않지만이 경우에는 그렇게 취급 될 수있을 정도로 정규 분포를 반영합니다) 특정 목표 시장에서 신청자 풀의 약 20 %에 대한 결 측값. 이 경우,이 변수의 결 측값은 개개의 회전 신용 라인이없는 고유 한 클래스를 나타냅니다. 이러한 고객은 가용 한 신용 한도가 있지만 정기적으로 잔액이없는 고객과는 완전히 다른 행동을 보일 것입니다.
이분법의 또 다른 이점 : 계수를 왜곡하는 중요한 특이 치의 영향을 완화하는 데 사용될 수 있지만 처리해야하는 현실적인 사례를 나타냅니다. 특이 치가 가장 가까운 백분위 수의 다른 값과 결과가 크게 다르지 않지만 한계 정확도에 영향을 줄만큼 매개 변수를 기울이면 유사한 효과를 나타내는 값으로 그룹화하는 것이 유리할 수 있습니다.
때로는 분포가 자연스럽게 일련의 클래스에 적합하기 때문에 이분법 화는 실제로 연속 함수보다 더 높은 정확도를 제공합니다.
또한, 앞서 언급 한 바와 같이, 청중에 따라, 프리젠 테이션의 용이성은 손실보다 정확도를 능가 할 수있다. 신용 점수를 다시 한 번 예로 사용하기 위해 실제로 높은 수준의 규제는 때때로 불연속 화에 대한 실질적인 사례를 만듭니다. 정확도가 높으면 대출 기관의 손실을 줄이는 데 도움이 될 수 있지만, 실무자들은 규제 기관 (모델 문서의 수천 페이지를 요청할 수 있음)과 신용을 거부 할 경우 법적으로 자격이있는 소비자가 모델을 쉽게 이해해야한다고 고려해야합니다. 이유에 대한 설명.
그것은 모두 당면한 문제와 데이터에 달려 있지만 분명히 이분법이 장점이있는 경우가 있습니다.
저는 분석가들이 연속적인 데이터의 조기 이산화에 저항해야한다는 Frank Harrell의 조언에 전념하는 팬입니다. 그리고 CV와 SO에 대한 몇 가지 답변이 있습니다. 연속 변수 사이의 상호 작용을 시각화하는 방법을 보여줍니다. 그러나, 나는 또한 의료계에서이 조언을 지키는 데있어 장애가되는 실제 경험을 가지고 있습니다. 임상의와 비 임상의 모두가 "분할"을 기대하는 매력적인 부서가 종종 있습니다. 통상적 인 "상한의 상한"은 그러한 "자연적인"스플릿 포인트 중 하나이다. 하나는 본질적으로 관계의 통계적 토대를 먼저 조사한 다음, 관객이 기대하고 쉽게 이해할 수있는 용어로 결과의 내용을 전달하는 것입니다. 내 "알레르기"에도 불구하고 바 플로트에게는 과학 및 의학 담론에서 매우 일반적입니다. 따라서 청중은이를 처리하기 위해 기성품인지 패턴을 가질 가능성이 높으며 결과를 지식 기반에 통합 할 수 있습니다.
또한, 비선형 형태의 예측 변수 사이에서 모델링 된 상호 작용을 그래픽으로 표시하려면 대부분의 청중이 소화하는데 어려움이있는 등고선 플롯 또는 와이어 프레임 디스플레이를 제시해야합니다. 나는 의학 및 일반 대중이 결과를 분리하고 세분화 한 프레젠테이션에 더 잘 수용한다는 것을 알았습니다. 따라서 통계 분석이 완료된 후 분할이 올바르게 수행된다고 결론을 내릴 수 있습니다 . 프레젠테이션 단계에서 수행됩니다.
많은 경우 연속 변수를 비닝하면 정보 손실로 인한 손상을 초래하는 불안한 느낌이 듭니다. 그러나 정보 손실을 막을 수있을뿐만 아니라 정보를 얻고 더 많은 이점을 얻을 수 있습니다.
비닝을 사용하고 분류 된 변수를 얻는 경우 연속 변수에 적용 할 수없는 학습 알고리즘을 적용 할 수 있습니다. 데이터 세트가 이러한 알고리즘 중 하나에 더 적합 할 수 있으므로 여기에서 첫 번째 이점이 있습니다.
비닝으로 인한 손실을 추정하는 아이디어는 "관련없는 속성을 가진 PAC 학습"이라는 논문을 기반으로합니다. 우리의 개념이 바이너리라고 가정하여 샘플을 양수와 음수로 나눌 수 있습니다. 네거티브 샘플과 포지티브 샘플의 각 쌍에 대해, 개념의 차이는 특징들 중 하나의 차이점에 의해 설명 될 수있다 (또는 그렇지 않으면, 주어진 특징에 의해 설명 될 수 없다). 기능 차이의 집합은 개념 차이에 대한 가능한 설명 집합이므로 개념을 결정하는 데 사용할 데이터입니다. 비닝을 했는데도 여전히 쌍에 대해 동일한 설명 세트를 얻는다면 (비교를 통해 작동하는 학습 알고리즘과 관련하여) 필요한 정보를 잃지 않았습니다. 우리의 분류가 매우 엄격하다면 아마도 가능한 작은 설명이있을 것입니다. 그러나 우리는 얼마나 많이, 어디서 지는지를 정확하게 측정 할 수있을 것입니다. 이를 통해 빈 수와 설명 세트를 교환 할 수 있습니다.
지금까지 우리는 분류로 인해 잃지 않을 수도 있음을 보았지만 그러한 단계를 적용하는 것을 고려하면 유익합니다. 실제로 분류를 통해 이익을 얻을 수 있습니다
트레인 세트에 표시되지 않은 값으로 샘플을 분류하도록 요청되는 많은 학습 알고리즘은 값을 "알 수 없음"으로 간주합니다. 따라서 우리는 기차 중에 보이지 않는 (또는 충분히 보이지 않는) 모든 값을 포함하는 "알 수없는"빈을 얻게됩니다. 이러한 알고리즘의 경우 알 수없는 값 쌍 간의 차이는 분류를 개선하는 데 사용되지 않습니다. 비닝 후 페어를 알 수없는 페어와 비교하고 비닝이 유용하고 실제로 획득했는지 확인하십시오.
각 기능의 값 분포를 확인하여 알 수없는 값이 얼마나 일반적인지 추정 할 수 있습니다. 특징은 몇 번만 나타나는 값이 분포의 상당 부분이 비닝에 적합한 후보임을 나타냅니다. 많은 시나리오에서 샘플이 알 수없는 값을 포함 할 확률이 증가하는 알 수없는 많은 기능이 있습니다. 이러한 상황에서 모든 기능을 처리하는 알고리즘은 오류가 발생하기 쉽습니다.
A. Dhagat 및 L. Hellerstein, "IEEE 증상의 절차"에서 "관련없는 속성을 가진 PAC 학습" 컴퓨터 과학의 기초에 관한 ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html