연속 예측 변수를 분해하면 어떤 이점이 있습니까?


78

모델에서 값을 사용하기 전에 연속 예측 변수를 가져 와서 분해 (예 : 5 분위수)하는 데 어떤 가치가 있는지 궁금합니다.

변수를 비닝하면 정보가 손실되는 것 같습니다.

  • 이것이 비선형 효과를 모델링 할 수 있도록하는 것입니까?
  • 변수를 연속적으로 유지하고 실제로 직선 관계가 아닌 경우 데이터에 가장 잘 맞는 커브를 만들어야합니까?

12
1) 아닙니다. 비닝은 정보를 잃어 버릴 수 있습니다. 가능하면 피해야합니다. 2) 일반적으로 데이터 배후 이론과 일치하는 곡선 함수가 선호됩니다.
O_Devinyak

8
이점에 대해서는 잘 모르지만 널리 알려진
Glen_b

2
때때로 그것을 꺼려하는 주장 : 그것은 임상 해석과 결과의 표현을 단순화 할 수 있습니다-예. 혈압은 종종 2 차 예측 변수이며 임상의는 저, 정상 및 고 혈압에 대한 컷오프 사용을 지원할 수 있으며 이러한 광범위한 그룹을 비교하는 데 관심이있을 수 있습니다.
user20650

4
@ user20650 : 나는 당신을 이해했는지 잘 모르겠지만 최선의 모델을 맞추는 것이 낫지 않습니까? 그런 다음 모델의 예측을 사용하여 광범위한 그룹에 대해 말하고 싶은 말을합니까? 내 연구에서 '고혈압 그룹'이 반드시 일반 인구와 동일한 압력 분포를 가질 필요는 없으므로 결과가 일반화되지는 않습니다.
Scortchi

7
단순화 된 임상 해석은 신기루입니다. 분류 된 연속 변수의 효과 추정치는 알려진 해석이 없습니다.
Frank Harrell

답변:


64

당신은 둘 다 맞습니다. 연속 변수 비닝에 대한 긴 문제 목록을 보려면 Frank Harrell의 페이지를 참조 하십시오 . 빈을 몇 개 사용하면 예측 변수에 많은 정보를 버립니다. 당신이 많은 것을 사용한다면, 당신은 매끄럽고, 선형 적이 지 않더라도 관계적이고, 많은 자유도를 사용해야하는 것에 흔들림을하는 경향이 있습니다. 일반적으로 예측 변수에 다항식 ( ) 또는 스플라인 (부드럽게 결합하는 부분 다항식)을 사용하는 것이 좋습니다. 비닝은 컷 포인트에서 반응의 불연속 (예 : 온도가 끓는 온도 또는 운전을위한 법적 연령) 및 반응이 평평 할 때 실제로 좋은 아이디어입니다.x+x2+

그 가치? — 음, 곡률을 생각하지 않고 곡률을 고려하는 빠르고 쉬운 방법이며, 모델이 사용하는 용도에 적합 할 수 있습니다. 예측 변수 수에 비해 많은 데이터가있을 때 모든 것이 잘 작동하는 경향이 있으며 각 예측 변수는 여러 범주로 나뉩니다. 이 경우 각 예측 자 대역 내에서 응답 범위가 작고 평균 응답이 정확하게 결정됩니다.

[댓글에 대한 답변으로 수정 :

때로는 연속 변수에 대한 필드 내에서 사용되는 표준 컷오프가 있습니다. 예를 들어, 의약품 혈압 측정은 낮음, 중간 또는 높음으로 분류 될 수 있습니다. 모델을 제시하거나 적용 할 때 이러한 컷오프를 사용하는 데는 여러 가지 이유가있을 수 있습니다. 특히 의사 결정 규칙은 종종 모델에 들어가는 것보다 적은 정보를 기반으로하므로 적용하기가 간단해야합니다. 그러나 이러한 컷오프는 모형에 적합 할 때 예측 변수를 비닝하는 데 적합하지 않습니다.

혈압에 따라 일부 반응이 지속적으로 변한다고 가정하십시오. 연구에서 고혈압 그룹을 예측 변수로 정의하면 추정 효과는 해당 그룹의 개인의 특정 혈압에 대한 평균 반응입니다. 그건 하지특별한 조치를 취하지 않는 한 일반 인구에서 고혈압 환자 또는 다른 연구에서 고혈압 환자의 평균 반응 추정치. 일반 인구의 혈압 분포를 알고 있다면 상상할 수 있듯이 혈압을 모델로 한 모델의 예측을 기반으로 일반 인구의 고혈압 환자의 평균 반응을 계산하는 것이 좋습니다. 연속 변수. 조잡한 비닝은 모델을 대략 일반화 할 수 있습니다.

일반적으로 컷오프 간의 응답 동작에 대한 질문이있는 경우 가장 적합한 모델을 먼저 맞추고이를 사용하여 응답하십시오.]

[발표에 관해서; 나는 이것이 청어라고 생각합니다.

(1) 표현의 용이성은 잘못된 모델링 결정을 정당화하지는 않습니다. (그리고 비닝이 좋은 모델링 결정 인 경우에는 추가로 정당화 할 필요가 없습니다.) 확실히 이것은 자명합니다. 표현하기가 어렵 기 때문에 모델에서 중요한 상호 작용을 취하는 것을 권장하는 사람은 없습니다.

(2) 어떤 종류의 모델을 적합하든 해석에 도움이된다고 생각되면 결과를 범주별로 표시 할 수 있습니다. 그러나 ...

(3) 위에서 언급 한 이유로 잘못 해석되지 않도록주의해야합니다 .

(4) 실제로 비선형 반응을 나타내는 것은 어렵지 않습니다. 개인적 견해, 분명히, 청중은 다릅니다. 그러나 나는 맞춤 반응 값 대 예측 변수 값의 그래프가 곡선이기 때문에 누군가를 당혹스럽게 본 적이 없습니다. 상호 작용, 로짓, 랜덤 효과, 다중 공선 성 등은 설명하기가 훨씬 어렵습니다.]

[@Roland가 제기 한 추가 포인트는 예측 변수의 측정 정확도입니다. 그는 분류가 특히 정확하지 않을 때 적절할 것이라고 제안합니다. 상식은 당신이 더 적은 데이터를 정밀하게 재 진술에 의해 문제를 개선하지 않는 것이 좋습니다 수, 상식 잘 될 것이다 : "양적 변수의 Dichotomization의 연습에"맥 칼럼 등 (2002), 심리적 방법 , 7 , 1, pp17–19.]


6
광범위한 문제에 대한 훌륭한 의견. 철저한 양적 사고를 위해 선전하는 것이 중요합니다. 예를 들어, 어떤 수준의 재난, 어떤 수준의 안락함 미만의 임계 값을 넘어서는 임계 값이 이미 너무 강조되어 있습니다.
Nick Cox

14
나는 의사가 사용한 컷오프에 대한 검증을 누군가에게 요구할 것입니다.
Frank Harrell

이 구간 화 접근 방식은 다른 영역에서 몇 가지 이점이 있다는 점에 주목할 필요가 있습니다. 특히 차량 방향과 같은 다중 모드 분포를 예측하기 위해 큰 신경망과 결합 할 때 특히 인기가 있습니다. 예를 들어 arxiv.org/abs/1612.00496 을 참조하십시오 .
N. McA.

11

비닝과 비닝은 두 가지 약간 다른 질문에 대답하려고한다는 것 입니다. 데이터의 증분 변화는 무엇입니까? 그리고 가장 낮은 가장 높은 사이의 차이점은 무엇입니까? .

비닝 (binning)이 아니라 "이것은 데이터에서 볼 수있는 트렌드의 정량화"이고 비닝 (binning)은 "각 증분에 의해이 변화가 얼마나 변했는지 말할 수있는 충분한 정보가 없지만 상단이 하단과 다르다고 말할 수 있습니다" .


5

임상의로서 나는 대답이 당신이하고 싶은 것에 달려 있다고 생각합니다. 가장 잘 맞거나 가장 잘 조정하려면 연속 및 제곱 변수를 사용할 수 있습니다.

비 통계적 지향 대상에 대한 복잡한 연관을 설명하고 전달하려면 분류 된 변수를 사용하는 것이 좋습니다. 마지막 10 진수에서 약간 편향된 결과를 제공 할 수 있습니다. 비선형 연관성을 표시하기 위해 적어도 세 가지 범주를 사용하는 것이 좋습니다. 대안은 특정 지점에서 그래프와 예측 결과를 생성하는 것입니다. 그런 다음 흥미로운 각 연속 공변량에 대한 그래프 계열을 생성해야 할 수도 있습니다. 너무 많은 편견을 두려워하는 경우 두 모델을 모두 테스트하여 차이가 중요한지 여부를 확인할 수 있다고 생각합니다. 실용적이고 현실적이어야합니다.

많은 임상 상황에서 우리의 계산은 정확한 데이터를 기반으로하지 않으며, 예를 들어 성인에게 약을 처방 할 때 킬로그램 당 정확한 mg (수술과 치료 중에서 선택할 수있는 비유)을 사용하지 않습니다. 말도 안됩니다).


1
왜 유추가 말도 안 되는가? 연속 변수를 분류하면 모델이 크게 악화되지 않습니까? 또는 훨씬 더 나쁜 모델을 사용하면 실질적인 결과가 전혀 없기 때문에?
Scortchi

9
그것은 단순히 @Roland의 경우가 아닙니다. 컷오프에서 얻은 추정치는 추정치가 무엇인지 이해하지 못하기 때문에 단순합니다. 과학적인 양, 즉 샘플이나 실험 외부에서 의미가있는 양을 추정하지 않기 때문입니다. 예를 들어 데이터 집합에 초고 또는 초저 값을 가진 환자를 추가하면 높음 : 낮음 확률 비율 또는 평균 차이가 증가합니다. 또한 컷오프를 사용한다는 것은 생물학이 불 연속적이라는 것을 의미합니다.
Frank Harrell

@Scortchi 설명하기 쉽기 때문에 의학적 치료에서 외과 적 치료로 바꾸는 것은 (실제입니까?) 설명 변수로 나이를 키로 바꾸는 것과 같습니다.
Roland

나는 이분법 변수를 피하는 것에 동의합니다. 임상 의학은 마지막 소수점이 중요한 암석 과학이 아닙니다. 모델에서 나는 나이 대 연령의 범주를 연속적이고 제곱 된 변수로 사용하지만 협회의 이해와 의사 소통을 크게 증가 시키면 마지막 십진수에서만 결과로 작업합니다.
Roland

4

이전 포스터에서 언급했듯이 일반적으로 연속 변수를 이분법 화하지 않는 것이 가장 좋습니다. 그러나 귀하의 질문에 대답하여 연속 변수를 이분법 화하면 이점이있는 경우가 있습니다.

예를 들어, 주어진 변수에 모집단의 상당 부분에 대한 결 측값이 포함되어 있지만 예측 성이 높고 결 측값 자체에 예측값이있는 경우. 예를 들어, 신용 점수 매기기 모델에서 변수를 고려해 봅시다. 평균 회전 신용 잔액 (이것은 기술적으로 연속적이지는 않지만이 경우에는 그렇게 취급 될 수있을 정도로 정규 분포를 반영합니다) 특정 목표 시장에서 신청자 풀의 약 20 %에 대한 결 측값. 이 경우,이 변수의 결 측값은 개개의 회전 신용 라인이없는 고유 한 클래스를 나타냅니다. 이러한 고객은 가용 한 신용 한도가 있지만 정기적으로 잔액이없는 고객과는 완전히 다른 행동을 보일 것입니다.

이분법의 또 다른 이점 : 계수를 왜곡하는 중요한 특이 치의 영향을 완화하는 데 사용될 수 있지만 처리해야하는 현실적인 사례를 나타냅니다. 특이 치가 가장 가까운 백분위 수의 다른 값과 결과가 크게 다르지 않지만 한계 정확도에 영향을 줄만큼 매개 변수를 기울이면 유사한 효과를 나타내는 값으로 그룹화하는 것이 유리할 수 있습니다.

때로는 분포가 자연스럽게 일련의 클래스에 적합하기 때문에 이분법 화는 실제로 연속 함수보다 더 높은 정확도를 제공합니다.

또한, 앞서 언급 한 바와 같이, 청중에 따라, 프리젠 테이션의 용이성은 손실보다 정확도를 능가 할 수있다. 신용 점수를 다시 한 번 예로 사용하기 위해 실제로 높은 수준의 규제는 때때로 불연속 화에 대한 실질적인 사례를 만듭니다. 정확도가 높으면 대출 기관의 손실을 줄이는 데 도움이 될 수 있지만, 실무자들은 규제 기관 (모델 문서의 수천 페이지를 요청할 수 있음)과 신용을 거부 할 경우 법적으로 자격이있는 소비자가 모델을 쉽게 이해해야한다고 고려해야합니다. 이유에 대한 설명.

그것은 모두 당면한 문제와 데이터에 달려 있지만 분명히 이분법이 장점이있는 경우가 있습니다.


이분법이 두 개의 쓰레기통에 들어가고 있습니다-당신은 이산화를 의미합니까?
Scortchi

2
처음 두 가지 예 모두에서, 불연속 화는 선의의 손님을 사로 잡아 파티에 허세를 돌리려고합니다. 속지 마십시오. (1) 개방형 회전 크레디트 라인이없는 클래스를 개별 클래스로 모델링하려면 더미 변수를 사용하여 해당 조건을 표시하고 평균 회전 크레디트 잔고에 일정한 값을 할당하십시오 . (2) 특정 극단적 예측 변수 값을 "큰"또는 "작은"으로 동일하게 처리하려면 값을 자릅니다. 나머지 값에 대해 고민 할 필요가 없습니다. 세 번째 사례는 논쟁의 여지가 없습니다. 예제를 자유롭게 추가하십시오.
Scortchi

3

변수가 특정 임계 값에 영향을 미치는 경우 비닝하여 새 변수를 작성하는 것이 좋습니다. 나는 항상 원래 변수와 비닝 변수를 모두 유지하고 어떤 변수가 더 나은 예측 변수인지 확인합니다.


3

저는 분석가들이 연속적인 데이터의 조기 이산화에 저항해야한다는 Frank Harrell의 조언에 전념하는 팬입니다. 그리고 CV와 SO에 대한 몇 가지 답변이 있습니다. 연속 변수 사이의 상호 작용을 시각화하는 방법을 보여줍니다. 그러나, 나는 또한 의료계에서이 조언을 지키는 데있어 장애가되는 실제 경험을 가지고 있습니다. 임상의와 비 임상의 모두가 "분할"을 기대하는 매력적인 부서가 종종 있습니다. 통상적 인 "상한의 상한"은 그러한 "자연적인"스플릿 포인트 중 하나이다. 하나는 본질적으로 관계의 통계적 토대를 먼저 조사한 다음, 관객이 기대하고 쉽게 이해할 수있는 용어로 결과의 내용을 전달하는 것입니다. 내 "알레르기"에도 불구하고 바 플로트에게는 과학 및 의학 담론에서 매우 일반적입니다. 따라서 청중은이를 처리하기 위해 기성품인지 패턴을 가질 가능성이 높으며 결과를 지식 기반에 통합 할 수 있습니다.

또한, 비선형 형태의 예측 변수 사이에서 모델링 된 상호 작용을 그래픽으로 표시하려면 대부분의 청중이 소화하는데 어려움이있는 등고선 플롯 또는 와이어 프레임 디스플레이를 제시해야합니다. 나는 의학 및 일반 대중이 결과를 분리하고 세분화 한 프레젠테이션에 더 잘 수용한다는 것을 알았습니다. 따라서 통계 분석이 완료된 분할이 올바르게 수행된다고 결론을 내릴 수 있습니다 . 프레젠테이션 단계에서 수행됩니다.


1

많은 경우 연속 변수를 비닝하면 정보 손실로 인한 손상을 초래하는 불안한 느낌이 듭니다. 그러나 정보 손실을 막을 수있을뿐만 아니라 정보를 얻고 더 많은 이점을 얻을 수 있습니다.

비닝을 사용하고 분류 된 변수를 얻는 경우 연속 변수에 적용 할 수없는 학습 알고리즘을 적용 할 수 있습니다. 데이터 세트가 이러한 알고리즘 중 하나에 더 적합 할 수 있으므로 여기에서 첫 번째 이점이 있습니다.

비닝으로 인한 손실을 추정하는 아이디어는 "관련없는 속성을 가진 PAC 학습"이라는 논문을 기반으로합니다. 우리의 개념이 바이너리라고 가정하여 샘플을 양수와 음수로 나눌 수 있습니다. 네거티브 샘플과 포지티브 샘플의 각 쌍에 대해, 개념의 차이는 특징들 중 하나의 차이점에 의해 설명 될 수있다 (또는 그렇지 않으면, 주어진 특징에 의해 설명 될 수 없다). 기능 차이의 집합은 개념 차이에 대한 가능한 설명 집합이므로 개념을 결정하는 데 사용할 데이터입니다. 비닝을 했는데도 여전히 쌍에 대해 동일한 설명 세트를 얻는다면 (비교를 통해 작동하는 학습 알고리즘과 관련하여) 필요한 정보를 잃지 않았습니다. 우리의 분류가 매우 엄격하다면 아마도 가능한 작은 설명이있을 것입니다. 그러나 우리는 얼마나 많이, 어디서 지는지를 정확하게 측정 할 수있을 것입니다. 이를 통해 빈 수와 설명 세트를 교환 할 수 있습니다.

지금까지 우리는 분류로 인해 잃지 않을 수도 있음을 보았지만 그러한 단계를 적용하는 것을 고려하면 유익합니다. 실제로 분류를 통해 이익을 얻을 수 있습니다

트레인 세트에 표시되지 않은 값으로 샘플을 분류하도록 요청되는 많은 학습 알고리즘은 값을 "알 수 없음"으로 간주합니다. 따라서 우리는 기차 중에 보이지 않는 (또는 충분히 보이지 않는) 모든 값을 포함하는 "알 수없는"빈을 얻게됩니다. 이러한 알고리즘의 경우 알 수없는 값 쌍 간의 차이는 분류를 개선하는 데 사용되지 않습니다. 비닝 후 페어를 알 수없는 페어와 비교하고 비닝이 유용하고 실제로 획득했는지 확인하십시오.

각 기능의 값 분포를 확인하여 알 수없는 값이 얼마나 일반적인지 추정 할 수 있습니다. 특징은 몇 번만 나타나는 값이 분포의 상당 부분이 비닝에 적합한 후보임을 나타냅니다. 많은 시나리오에서 샘플이 알 수없는 값을 포함 할 확률이 증가하는 알 수없는 많은 기능이 있습니다. 이러한 상황에서 모든 기능을 처리하는 알고리즘은 오류가 발생하기 쉽습니다.

A. Dhagat 및 L. Hellerstein, "IEEE 증상의 절차"에서 "관련없는 속성을 가진 PAC 학습" 컴퓨터 과학의 기초에 관한 ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.