카운트 데이터로 스케일 변수-맞습니까?


10

에서 본 논문 (중앙 PubMed를 통해 자유롭게 사용할 수), 저자는 0-40 득점 10 항목 심사 악기의 점수를 모델링하는 음 이항 회귀 분석을 사용합니다. 이 절차에서는 카운트 데이터를 가정하지만 여기에는 해당되지 않습니다. 이 접근법이 수용 가능한지 아닌지에 대한 당신의 의견을 부탁드립니다. 나는 때때로 내 작품에서 같은 악기 나 유사한 도구를 사용하기 때문입니다. 그렇지 않은 경우 수용 가능한 대안이 있는지 알고 싶습니다. 자세한 내용은 아래를 참조하십시오.

사용 된 척도는 알코올 사용 장애 및 유해 / 유해 음주 검사 도구로 고안된 10 개 항목 설문지 인 알코올 사용 장애 식별 테스트 (AUDIT)입니다. 계측기는 0에서 40까지 점수가 매겨지며 결과는 일반적으로 왼쪽으로 치우칩니다.

내가 알기로, 카운트 데이터를 사용하면 "계산 된"모든 값이 서로 독립적이라고 가정합니다. 매일 응급 병동에 오는 환자, 특정 그룹의 사망자 수 등은 모두 서로 독립적입니다. 기본 변수에 따라 다릅니다. 또한 카운트 데이터를 사용할 때 최대 허용 카운트가 없다고 생각하지만 데이터의 관찰 된 최대 값과 비교할 때 이론적 최대 값이 매우 높을 때이 가정을 완화 할 수 있다고 생각합니까?

AUDIT 스케일을 사용할 때 실제 카운트는 없습니다. 우리는 최대 점수가 40 인 10 개의 항목을 가지고 있지만 실제로 높은 점수는 거의 보이지 않습니다. 항목의 점수는 자연스럽게 서로 연관되어 있습니다.

따라서 카운트 데이터를 사용하는 데 필요한 가정이 위반됩니다. 그러나 이것이 여전히 수용 가능한 접근법입니까? 가정 위반이 얼마나 심각합니까? 이 접근법이보다 수용 가능한 것으로 간주 될 수있는 특정 상황이 있습니까? 척도 변수를 범주로 줄이는 것을 포함하지 않는이 방법에 대한 대안이 있습니까?

답변:


4

AUDIT 기기는 기본적으로 리 커트 스케일입니다. 종종 5 점 척도로 답변되는 일련의 질문 (Likert 항목)은 몇 가지 근본적인 현상에 도달하도록 설계되었습니다. 그런 다음 질문 세트에 대한 반응의 합인 리 커트 척도를 기본 현상의 척도로 사용합니다. 리 커트 항목에 "강력 반대"의 규모에 종종 있지만 응용 프로그램이 "경향 측정하기 위해"강력하게 동의 " lcohol U 자체 개발 이"에 isorders을 " 나는 dentification T의 추정을"간단합니다.

리 커트 척도 위키 백과 페이지 에서 언급 한 바와 같이 , "개별 리 커트 아이템이 인터벌 레벨 데이터로 간주 될 수 있는지 또는 주문 된 카테고리 데이터로 취급되어야하는지 여부는 문헌에서 상당히 불일치하며, 가장 적합한 방법 " 이 분쟁은 리 커트가 처음 스케일을 제안한 이후 80 년 이상을 거슬러 올라갑니다. 이 질문 에 대한 답변에서 와 같이이 사이트에서 가장 먼저 제기 된 질문 중 하나 인 Cross Validated에서이 문제가 해결되었습니다 .

스케일에 균일 한 단계 (또는 AUDIT에서와 같이 10 개의 서로 다른 항목을 추가하여 평균을내는 애플리케이션에 대해 균일 할 수있을 정도로 근접한 단계)가 있다는 아이디어를 받아들이면 분석에 대한 몇 가지 접근법이 가능합니다. 하나는 각 단계를 올라갈 확률과 동일한 비율로, 스케일 위로 올라 가기 위해 선택되거나 선택되지 않은 일련의 단계로 스케일의 반응을 고려하는 것입니다.

이것은 @MikeLawrence의 2010 년 질문에서와 같이, " n- 점 리 커트 척도 데이터를 이항 공정으로부터의 n 개의 시도 "로 생각할 수있게한다. 이 질문에 대한 답변이 그 아이디어를 굉장히지지하는 것은 아니지만, 오늘날이 연구 를 성공적으로 찾아서 이항 확률이 다른 하위 집단을 구별하기 위해이 접근법을 성공적으로 찾아내는 것은 어렵지 않았습니다 . 이항 법은 종종 카운트 데이터를 모델링하는 데 사용되지만, 개인이 "알코올 사용 장애"의 척도를 따라 걸었던 단계의 수, 카운트를 모델링하는 데 사용될 수 있습니다.

@Scortchi 가 두 번째 단락에 연결된 질문 에 대한 답변 에서 언급했듯이 이항 모델의 한계는 반응의 평균과 분산 사이에 특정 관계를 부과한다는 것입니다. 음 이항 제거하는 간단한 이항 모델에 의해 제공되는 쉬운 해석의 손실이 제한. 해석에서 적합해야하는 추가 매개 변수는 추가 자유도를 하나만 사용합니다. 반대로, 40 개의 Likert-item 단계마다 서로 다른 확률을 지정하고 Likert 척도에 대한 합계를 계산하는 것은 어려울 것입니다.

@MatthewGraves가이 질문에 대한 그의 답변에서 언급했듯이, 음 이항 모델이 적절한 지 여부는 잔차를 조사하는 것이 가장 좋습니다. AUDIT를 개발 한 최초의 연구 에서, 40 점 척도에서 8 이상의 값은 6 개의 다른 국가에서 "유해 또는 유해한 알코올 사용"으로 진단 된 것들을 구별하는데 상당히 합리적인 특이성과 감도를 가졌습니다. 따라서 위에 링크 된 2014 년 연구와 유사한 고위험 및 저 위험 집단을 기반으로하는 2 인구 이항 모형이 더 나을 것입니다.

AUDIT에 관심이있는 사람들은 구체적으로 그 원래 연구를 조사해야합니다. 예를 들어, 아침 음료의 필요성은 음주의 빈도와 완전히 다른 것을 측정하는 것처럼 보이지만 @SeanEaster가 예상 한 것처럼 아침 음료는 가중 평균 0.73의 알코올 섭취 척도와 상관 관계가 있습니다. (이 결과는 알코올 사용 장애가있는 친구가있는 사람에게는 놀라운 일이 아닙니다.) AUDIT는 여러 문화에서 안정적으로 사용할 수있는 도구를 개발하는 데 필요한 트레이드 오프의 좋은 예인 것 같습니다.


좋은 답변 감사합니다. 20000 명 이상의 개인에 대한 내 자신의 AUDIT 데이터를 볼 때 모양이 음의 이항 분포에 가깝게 보이므로 해당 분포 가정을 사용하는 것이 합리적이거나 준-포아송 모형을 사용할 수 있습니까? 우리가 40 개의 베르누이 시험에서 k 개의 성공 점을 고려하여 이항 분포를 사용한다면 과대 산포에 심각한 문제가 없을까요? 내 데이터에서 그렇게 보입니다. 유사 이항이 대안이 될 수 있습니까?
JonB

0-40 AUDIT 점수를 모델링하는 이유와 결과에 어떤 휴리스틱 해석을 적용 할 것인지에 따라 달라집니다. 분포 모수 값 자체에 대한 제한된 해석만으로 AUDIT 점수와 다른 변수의 관계 만 원하는 경우, 잘 동작하는 잔차를 제공하는 분포를 사용하십시오. 당신의 제안은 합리적입니다. 단일 이항을 데이터에 피팅하는 것은 문제가 있지만, p 가 다른 2 개의 이항 (고위험군과 저 위험군)이 혼합 된 것이 유익 할 수 있습니다. 주제에 대한 지식을 바탕으로 판단하십시오.
EdM

2

음 이항 분포는 "전염성"이산 이벤트 바람직하다. 포아송 분포는 이산 이벤트가 독립 할 때 사용됩니다. 이러한 분포는 기본적으로 점을 점으로 대체하여 잘 리기 매우 쉽습니다 .x 40x=40x40

일반적으로, 회귀의 다른 풍미는 매개 변수 (즉, 정규화) 및 다른 잡음 모델에 대해 다른 우선 순위를 갖는다. 표준 최소 제곱 회귀에는 가우스 잡음 모델이 있고 음의 이항 회귀에는 음의 이항 잡음 모델이 있습니다. 회귀 모형이 적합한 지 여부에 대한 실제 테스트는 잔차 노이즈에 예상 분포가 있는지 여부입니다.

따라서 마이너스 이항 회귀를 데이터에 적용하고 잔차를 계산 한 다음 마이너스 이항 확률도에 플롯하고 모형이 적절한 지 여부를 알 수 있습니다. 노이즈가 다른 방식으로 구조화 된 경우 해당 구조에 더 적합한 노이즈 모델을 찾아야합니다.

생성 모델에서 노이즈 구조로 추론하는 것이 도움이됩니다. 예를 들어 데이터가 가산 대신 곱셈임을 알고 있다면 정규 대신 로그 정규에 도달하지만 예상되는 생성 모델과 노이즈 구조가 일치하지 않는 경우, 기대치가 아니라 데이터와 함께 가십시오.


흥미롭게도, 나는 그 사건이 "전염성"일 수 있다는 것을 몰랐다. 실제로 x = 40을 x> = 40으로 대체한다는 것은 무엇을 의미합니까? R에서 음 이항 확률도를 어떻게 수행합니까? 적합치에 대한 플롯 잔차를 의미하지 않는다고 가정합니까? QQ 플롯과 같은 의미입니까?
JonB

@JonB r이 1이고 성공 확률이 p = .9 인 음 이항을 가정합니다. 40 번의 시도에서 생존 할 확률은 정확히 0.148 %입니다. 40 번 이상의 시도에서 생존 할 확률은 1.48 %입니다. 따라서 [0,39]에 대해 음 이항을 사용한 다음 [40]을 1로 합산하여 [0,40]에 대해 잘 구성된 확률을 정의 할 수 있습니다. 음수 이항 분포는 40 이상일 확률이 형성됩니다.
Matthew Graves

@JonB 정확히, QQ 플롯과 같습니다. 이전에 R에서 해본 적이 없지만 이 링크 가 도움 되기를 바랍니다 .
Matthew Graves

1
AUDIT 점수로 일부 데이터를 실험했습니다. qq 플롯을 만들 때 음의 이항 분포에서 임의의 결과 벡터를 만들어야합니다. mu / theta는 나의 회귀 모델에 의해 주어졌지만, 어떤 "크기"를 사용할지 어떻게 알 수 있습니까? 이것이 R에 관한 질문이라면 유감입니다. 어쨌든, 종류를 측정하는 여러 항목을 합산하여 생성 된 이러한 종류의 척도에 음의 이항 (및 기타 분포)을 적용하는 것에 대해 더 읽을 수있는 좋은 참고 자료가 있습니까? 같은 과정?
JonB

나는 지금 몇 가지 추가 실험을했다. x와 y라는 두 가지 변수로 데이터 세트를 시뮬레이션했습니다. 50 %는 x = 0이고 50 %는 x = 1입니다. x = 0 인 사람들은 y = 1에 대해 0.2 확률을 가지며 x = 1 인 사람들은 y = 1에 대해 0.4 확률을 갖습니다. 그런 다음 로지스틱 회귀 분석을 실행하고 잔차를 살펴 보았습니다. 이항 적으로 분포 된 것처럼 보이지 않습니다. 실제로, 그들은 (물론) 4 가지 특정 가치를 취합니다. 잔차 패턴이 항상 분포 가정과 일치해야합니까? 이 경우 분명히 잘못되었습니다.
JonB
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.