답변:
응답 또는 결과 가 제한 될 때 다음을 포함하여 모델을 피팅 할 때 다양한 질문이 발생합니다.
해당 범위를 벗어난 응답 값을 예측할 수있는 모델은 원칙적으로 모호합니다. 따라서 가 한 방향 또는 두 방향으로 제한되지 않을 때마다 예측 자 및 계수 대한 대한 경계가 없으므로 선형 모형이 문제가 될 수 있습니다 . 그러나, 관계는 이것이 물지 않을 정도로 충분히 약할 수 있고 / 있거나 예측은 예측 자의 관찰되거나 그럴듯한 범위에 걸쳐 경계 내에 유지 될 수있다. 극단적으로, 응답이 평균 잡음이라면 어떤 모델이 적합한 지 거의 중요하지 않습니다.
반응이 한계를 초과 할 수 없기 때문에 비선형 관계는 예측 된 반응이 끝없이 경계에 접근 할 때 무의식적으로 더 타당합니다. 로짓 (logit) 또는 프로 빗 (probit) 모델에 의해 예측 된 것과 같은 시그 모이 드 곡선 또는 표면은 이와 관련하여 매력적이고 이제는 맞추기가 어렵지 않다. 문맹 퇴치 (또는 새로운 아이디어를 채택한 분수)와 같은 반응은 종종 시간이 지남에 따라 거의 모든 다른 예측 변수와 같은 시그 모이 드 곡선을 보여줍니다.
경계 응답에는 일반 또는 바닐라 회귀에서 예상되는 분산 특성을 가질 수 없습니다. 평균 반응이 하한과 상한에 접근 할 때 분산은 항상 0에 근접합니다.
기본 생성 프로세스의 작동 및 지식에 따라 모델을 선택해야합니다. 고객이나 청중이 특정 모델 군에 대해 알고 있는지 여부는 실습을 안내 할 수 있습니다.
나는 좋고 / 좋지 않다, 적절하고 / 적절하지 않다, 옳고 / 잘못과 같은 담요 판단을 피하고 있음에 유의한다. 모든 모델은 근사치이며 근사치가 매력적이거나 프로젝트에 충분하기 때문에 예측하기가 쉽지 않습니다. 나는 일반적으로 로짓 모델을 경계 반응에 대한 첫 번째 선택으로 선호하지만 선호도는 습관 (예를 들어 아무런 이유없이 프로 빗 모델을 피하는 것)에 부분적으로 근거하고 부분적으로 내가 독자, 또는 통계적으로 잘 알고 있어야합니다.
불연속 척도의 예는 1-100 점 (I 과제, 0은 확실히 가능합니다!) 또는 1-17 순위입니다. 그런 척도의 경우, 나는 보통 연속 모델을 [0, 1]로 조정 된 반응에 맞추는 것을 생각할 것입니다. 그러나 서수 회귀 모델의 실무자는 이러한 모델을 상당히 많은 이산 값으로 스케일에 적합하게 맞출 것입니다. 그들이 마음이 든다면 그들이 대답하면 행복합니다.
나는 건강 서비스 연구에서 일합니다. 우리는 환자가보고 한 결과 (예 : 신체 기능 또는 우울 증상)를 수집하며, 자주 언급 한 형식으로 점수가 매겨집니다. 척도의 모든 개별 질문을 합산하여 생성 된 0에서 N까지의 척도입니다.
내가 검토 한 대다수의 문헌은 방금 선형 모델 (또는 데이터가 반복 관측에서 나온 경우 계층 적 선형 모델)을 사용했습니다. 나는 비록 완전히 그럴듯한 모델이지만 (분수) 로짓 모델에 @NickCox의 제안을 사용하는 사람을 아직 보지 못했습니다.
항목 반응 이론은 적용 할 또 다른 타당한 통계 모델로 생각 나게합니다. 일부는 잠재적 인 특성 가정 곳이다 물류를 사용하여 질문에 대한 응답을 발생 또는 물류 모델을 주문했다. 이는 본질적으로 Nick이 제기 한 경계 및 가능한 비선형 성 문제를 처리합니다.
아래 그래프는 다가오는 논문 연구에서 나옵니다. 이것은 선형 모델 (빨간색)을 Z 점수로 변환 된 우울 증상 질문 점수에 맞추고 동일한 설명에 파란색 (설명) IRT 모델을 맞추는 곳입니다. 기본적으로 두 모델의 계수는 동일한 척도 (표준 편차)입니다. 실제로 계수의 크기에는 약간의 일치가 있습니다. Nick이 암시 한 것처럼 모든 모델이 잘못되었습니다. 그러나 선형 모델은 사용하기에 너무 잘못되지 않을 수 있습니다.
즉, 거의 모든 현재 IRT 모델의 기본 가정은 문제의 특성이 양극성이라는 것입니다. 즉, 지원은 ~ 입니다. 우울증 증상에는 해당되지 않을 수 있습니다. 단극 잠복 특성에 대한 모델은 아직 개발 중이며 표준 소프트웨어로는 적합하지 않습니다. 우리가 관심을 갖고있는 의료 서비스 연구의 많은 특성은 우울 증상, 정신 병리학의 다른 측면, 환자 만족과 같은 단극 성일 가능성이 높습니다. 따라서 IRT 모델도 잘못되었을 수 있습니다.
(참고 : 위의 모델은 Phil Chalmers의 mirt
패키지에 적합했습니다 . ggplot2
및 ggthemes
.를 사용하여 생성 된 그래프 . Stata 기본 색 구성표에서 색 구성표를 그립니다.)
선형 회귀는 이러한 데이터를 "적절하게"설명 할 수 있지만 그럴 가능성은 없습니다. 선형 회귀에 대한 많은 가정은 이러한 유형의 데이터에서 선형 회귀가 잘못 권고 될 정도로 위반되는 경향이 있습니다. 예를 들어 몇 가지 가정을 선택하겠습니다.
데이터가 범위에서 벗어나 가장자리에서 멀어 질 경우 이러한 가정 위반은 완화됩니다. 그러나 실제로 선형 회귀는 이러한 종류의 데이터에 최적의 도구가 아닙니다. 훨씬 더 좋은 대안은 이항 회귀 또는 포아송 회귀 일 수 있습니다.
cdf (통계의 누적 분포 함수)를 사용하십시오. 모형이 y = xb + e이면 y = cdf (xb + e)로 변경하십시오. 종속 변수 데이터의 크기를 0에서 1 사이로 조정해야합니다. 양수인 경우 최대 값으로 나누고 모형 예측을 취하고 같은 수를 곱하십시오. 그런 다음 적합도를 확인하고 경계 예측이 개선되는지 확인하십시오.
통조림 알고리즘을 사용하여 통계를 처리 할 수 있습니다.