Y가 제한되고 이산 일 때의 선형 회귀


14

문제는 간단합니다. Y가 제한되고 이산적일 때 선형 회귀를 사용하는 것이 적절합니까 (예 : 시험 점수 1 ~ 100, 일부 사전 정의 된 순위 1 ~ 17)? 이 경우 선형 회귀를 사용하는 것이 "좋지 않다"거나 사용하는 것이 완전히 잘못 되었습니까?

답변:


10

응답 또는 결과 가 제한 될 때 다음을 포함하여 모델을 피팅 할 때 다양한 질문이 발생합니다. 와이

  1. 해당 범위를 벗어난 응답 값을 예측할 수있는 모델은 원칙적으로 모호합니다. 따라서 가 한 방향 또는 두 방향으로 제한되지 않을 때마다 예측 자 및 계수 대한 대한 경계가 없으므로 선형 모형이 문제가 될 수 있습니다 . 그러나, 관계는 이것이 물지 않을 정도로 충분히 약할 수 있고 / 있거나 예측은 예측 자의 관찰되거나 그럴듯한 범위에 걸쳐 경계 내에 유지 될 수있다. 극단적으로, 응답이 평균 잡음이라면 어떤 모델이 적합한 지 거의 중요하지 않습니다.와이^=엑스엑스엑스+

  2. 반응이 한계를 초과 할 수 없기 때문에 비선형 관계는 예측 된 반응이 끝없이 경계에 접근 할 때 무의식적으로 더 타당합니다. 로짓 (logit) 또는 프로 빗 (probit) 모델에 의해 예측 된 것과 같은 시그 모이 드 곡선 또는 표면은 이와 관련하여 매력적이고 이제는 맞추기가 어렵지 않다. 문맹 퇴치 (또는 새로운 아이디어를 채택한 분수)와 같은 반응은 종종 시간이 지남에 따라 거의 모든 다른 예측 변수와 같은 시그 모이 드 곡선을 보여줍니다.

  3. 경계 응답에는 일반 또는 바닐라 회귀에서 예상되는 분산 특성을 가질 수 없습니다. 평균 반응이 하한과 상한에 접근 할 때 분산은 항상 0에 근접합니다.

기본 생성 프로세스의 작동 및 지식에 따라 모델을 선택해야합니다. 고객이나 청중이 특정 모델 군에 대해 알고 있는지 여부는 실습을 안내 할 수 있습니다.

나는 좋고 / 좋지 않다, 적절하고 / 적절하지 않다, 옳고 / 잘못과 같은 담요 판단을 피하고 있음에 유의한다. 모든 모델은 근사치이며 근사치가 매력적이거나 프로젝트에 충분하기 때문에 예측하기가 쉽지 않습니다. 나는 일반적으로 로짓 모델을 경계 반응에 대한 첫 번째 선택으로 선호하지만 선호도는 습관 (예를 들어 아무런 이유없이 프로 빗 모델을 피하는 것)에 부분적으로 근거하고 부분적으로 내가 독자, 또는 통계적으로 잘 알고 있어야합니다.

불연속 척도의 예는 1-100 점 (I 과제, 0은 확실히 가능합니다!) 또는 1-17 순위입니다. 그런 척도의 경우, 나는 보통 연속 모델을 [0, 1]로 조정 된 반응에 맞추는 것을 생각할 것입니다. 그러나 서수 회귀 모델의 실무자는 이러한 모델을 상당히 많은 이산 값으로 스케일에 적합하게 맞출 것입니다. 그들이 마음이 든다면 그들이 대답하면 행복합니다.


8

나는 건강 서비스 연구에서 일합니다. 우리는 환자가보고 한 결과 (예 : 신체 기능 또는 우울 증상)를 수집하며, 자주 언급 한 형식으로 점수가 매겨집니다. 척도의 모든 개별 질문을 합산하여 생성 된 0에서 N까지의 척도입니다.

내가 검토 한 대다수의 문헌은 방금 선형 모델 (또는 데이터가 반복 관측에서 나온 경우 계층 적 선형 모델)을 사용했습니다. 나는 비록 완전히 그럴듯한 모델이지만 (분수) 로짓 모델에 @NickCox의 제안을 사용하는 사람을 아직 보지 못했습니다.

항목 반응 이론은 적용 할 또 다른 타당한 통계 모델로 생각 나게합니다. 일부는 잠재적 인 특성 가정 곳이다 물류를 사용하여 질문에 대한 응답을 발생 또는 물류 모델을 주문했다. 이는 본질적으로 Nick이 제기 한 경계 및 가능한 비선형 성 문제를 처리합니다.θ

아래 그래프는 다가오는 논문 연구에서 나옵니다. 이것은 선형 모델 (빨간색)을 Z 점수로 변환 된 우울 증상 질문 점수에 맞추고 동일한 설명에 파란색 (설명) IRT 모델을 맞추는 곳입니다. 기본적으로 두 모델의 계수는 동일한 척도 (표준 편차)입니다. 실제로 계수의 크기에는 약간의 일치가 있습니다. Nick이 암시 한 것처럼 모든 모델이 잘못되었습니다. 그러나 선형 모델은 사용하기에 너무 잘못되지 않을 수 있습니다.

여기에 이미지 설명을 입력하십시오

즉, 거의 모든 현재 IRT 모델의 기본 가정은 문제의 특성이 양극성이라는 것입니다. 즉, 지원은 ~ 입니다. 우울증 증상에는 해당되지 않을 수 있습니다. 단극 잠복 특성에 대한 모델은 아직 개발 중이며 표준 소프트웨어로는 적합하지 않습니다. 우리가 관심을 갖고있는 의료 서비스 연구의 많은 특성은 우울 증상, 정신 병리학의 다른 측면, 환자 만족과 같은 단극 성일 가능성이 높습니다. 따라서 IRT 모델도 잘못되었을 수 있습니다.

(참고 : 위의 모델은 Phil Chalmers의 mirt패키지에 적합했습니다 . ggplot2ggthemes.를 사용하여 생성 된 그래프 . Stata 기본 색 구성표에서 색 구성표를 그립니다.)


6
선형 모델이 널리 사용된다고해서 적합하다는 의미는 아닙니다. 많은 사람들이 선형 모델을 사용합니다. 선형 모델은 알고 있거나 익숙한 것뿐이기 때문입니다.
qwr

1
의학 문헌은 특히 "이것이이 분야 / 저자가하는 일이다"라는 유형의 아이디어에 의해 전파되는 열악한 관행으로 가득하다. 일반적으로 의료 연구에서 일반적이지만 외형으로 인해 무언가를 사용하거나 사용하지 않을 것입니다.
LSC

1

예측 된 값을보고 원래 Y와 거의 동일한 분포를 갖는지 확인하십시오. 이 경우 선형 회귀가 적합합니다. 그리고 당신은 당신의 모델을 개선함으로써 거의 얻을 수 없습니다.


1

선형 회귀는 이러한 데이터를 "적절하게"설명 할 수 있지만 그럴 가능성은 없습니다. 선형 회귀에 대한 많은 가정은 이러한 유형의 데이터에서 선형 회귀가 잘못 권고 될 정도로 위반되는 경향이 있습니다. 예를 들어 몇 가지 가정을 선택하겠습니다.

  1. 정규성-이러한 데이터의 불연속성을 무시하더라도 이러한 데이터는 분포가 경계에 의해 "잘려져"있기 때문에 극단적 인 정규성을 위반하는 경향이 있습니다.
  2. 균질성-이 유형의 데이터는 균질성을 위반하는 경향이 있습니다. 실제 평균이 모서리와 비교할 때 범위의 중심을 향할 때 분산이 더 큰 경향이 있습니다.
  3. 선형성-Y의 범위가 제한되므로 가정이 자동으로 위반됩니다.

데이터가 범위에서 벗어나 가장자리에서 멀어 질 경우 이러한 가정 위반은 완화됩니다. 그러나 실제로 선형 회귀는 이러한 종류의 데이터에 최적의 도구가 아닙니다. 훨씬 더 좋은 대안은 이항 회귀 또는 포아송 회귀 일 수 있습니다.


2
포아송 회귀가 이중 경계 반응의 후보임을 알기가 어렵습니다.
Nick Cox

0

반응에 소수의 범주 만 필요한 경우 반응 변수가 순서 인 경우 분류 방법 또는 순서 회귀 를 사용할 수 있습니다 .

평범한 선형 회귀는 이산 범주 나 한계 반응 변수를 제공하지 않습니다. 후자는 로지스틱 회귀와 같은 로짓 모델을 사용하여 수정할 수 있습니다. 100 개 범주가 1 ~ 100 인 테스트 점수와 같은 경우 예측을 단순화하고 경계 응답 변수를 사용할 수 있습니다.


0

cdf (통계의 누적 분포 함수)를 사용하십시오. 모형이 y = xb + e이면 y = cdf (xb + e)로 변경하십시오. 종속 변수 데이터의 크기를 0에서 1 사이로 조정해야합니다. 양수인 경우 최대 값으로 나누고 모형 예측을 취하고 같은 수를 곱하십시오. 그런 다음 적합도를 확인하고 경계 예측이 개선되는지 확인하십시오.

통조림 알고리즘을 사용하여 통계를 처리 할 수 ​​있습니다.


1
이것은 두 가지 사실을 혼동하는 것처럼 보입니다. (1) 로짓, 프로 빗 및 유사한 모델을 적용하려면 경계 반응을 0과 1 사이로 조정해야합니다. (2) cdfs도 0과 1 사이에서 다양합니다. CDF를 모델링하지 않습니다.
닉 콕스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.