선형 회귀 분석에서 독립 변수로 1을 합한 비율 해석


13

범주 형 변수 개념과 친숙성을 피하기 위해 한 수준을 기준선으로 맞출 수있는 각각의 더미 변수 코딩에 익숙합니다. 또한 이러한 모델의 모수 추정값을 해석하는 방법에 대해서도 잘 알고 있습니다. 기준선 범주를 기준으로 주어진 적합 수준의 범주 형 예측 변수에 대한 예상 결과 변화입니다.

내가 확실하지 않은 것은 1 에 비례하는 독립 변수 세트 를 해석하는 방법 입니다. 모델의 모든 비율을 맞추면 공선 성이 다시 나타납니다. 따라서 아마도 하나의 범주를 기준선으로 남겨 두어야 할 것입니다. 또한이 변수의 유의성에 대한 전체 검정을 위해 III 형 SS를 살펴 보겠다고 가정합니다. 그러나 모델과 기준에 맞는 수준에 대한 모수 추정치를 어떻게 해석합니까?

: 우편 번호 수준에서 독립 변수는 변성암, 화성암 및 퇴적암의 비율입니다. 아시다시피, 이들은 세 가지 주요 암석 유형이며 모든 암석은 이들 중 하나로 분류됩니다. 이와 같이, 3 개 모두에 대한 비율은 1에 합산된다. 결과는 각각의 우편 번호의 평균 라돈 수준이다.

예를 들어, 모델에서 예측 변수로서 변성화성 비율 을 맞추고 퇴적물 을 기준선으로 남겨두면 두 가지 적합 레벨 의 전체 유형 III SS F- 검정은 암석 유형이 전체적으로 중요한지 여부를 나타냅니다 결과 예측 자 (평균 라돈 수준). 그런 다음 개별 p- 값 ( t 분포를 기준으로 )을 확인하여 하나 또는 두 개의 암석 유형이 기준선과 크게 다른지 여부를 확인할 수 있습니다.

그러나 매개 변수 추정치와 관련하여 내 두뇌는 그룹 (암 유형) 간의 결과 변화를 순전히 해석하기를 원하며 비율에 적합하다는 사실을 통합하는 방법을 이해하지 못합니다 .

는 IF 대한 추정 변성이 있었다, 말하자면, 0.43는 해석은 바위가 변성 대 함정이있을 때이 0.43 단위로 평균 라돈 수준의 증가를 예측하는 것이 단순히이다. 그러나, 해석은 단순히 변성암 유형의 비율에서 어떤 종류의 단위 증가 (예 : 0.1)에 대한 것이 아닙니다. 왜냐하면 이것은 그것이 기준선 ( 침강 ) 과도 관련이 있다는 사실을 반영하지 않기 때문 입니다. 변성 의 비율은 본질적으로 화성에 맞는 다른 암석 수준의 비율을 변경합니다 .β

누구든지 그러한 모델의 해석을 제공하는 출처를 가지고 있습니까? 아니면 여기에서 간단한 예를 제공 할 수 있습니까?


2
(π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)

1
아니요,하지만 문제가 될 것 같습니다. 특히 많은 "비율"이 실제로 0과 1로 나왔거나 0과 1에 매우 가까운 값으로 나왔기 때문에 본질적으로 이진으로 작동하기 때문입니다. 따라서 실제 그룹을 그룹으로 만들거나 (비율로 제거) 가능성이 있지만, 이것이 여전히 올바른 해석이 무엇인지에 대한 나의 관심을 불러 일으켰습니다.
Meg

충분합니다. 좋은 질문입니다.
whuber

2
λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1

2
λi=log(πi)
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi

답변:


8

후속 조치 및 정답이라고 생각하는 것 (나에게 합리적이라고 생각됨) :이 질문을 ASA Connect listserv에 게시하고 Stony Brook의 Thomas Sexton으로부터 다음과 같은 응답을 받았습니다.

"추정 된 선형 회귀 모델은 다음과 같습니다.

ln (라돈) = (다른 변수의 선형 표현) + 0.43M + 0.92I

여기서 M과 I는 우편 번호에서 각각 변성암과 화성암의 백분율을 나타냅니다. 당신은 다음에 의해 제약을받습니다 :

M + I + S = 100

여기서 S는 우편 번호에서 퇴적암의 백분율을 나타냅니다.

0.43의 해석은 M의 1 % 포인트 증가 는 모델의 다른 모든 변수를 고정한 ln (Radon)의 0.43 증가와 관련이 있습니다. 따라서, I의 값은 변화 될 수없고, 제약을 만족시키면서 M이 1 % 포인트 증가하는 유일한 방법은 생략 된 카테고리 인 S가 1 % 포인트 감소하는 것이다.

물론 이러한 변화는 S = 0 인 ZIP 코드에서는 발생하지 않지만 이러한 ZIP 코드에서는 M의 감소와 이에 상응하는 S의 증가가 가능합니다. "

스레드 ASA에 대한 링크는 다음과 같습니다 .

나는 이것을 올바른 정답으로 게시하고 있지만 누군가 추가해야 할 사항이 있으면 계속 논의 할 수 있습니다.


여기에 제공된 답변에 의문을 제기하는 토론이 많으므로 ASA 스레드로 이동하는 것이 좋습니다.
Maxim.K

@ Maxim.K : 위에서 링크 한 내 ASA 스레드를 언급하고 있습니까? 그렇다면, 답을 얻지 못한 경고가 많이 있었으며 여전히 "올바른"대답을 확신 할 수 없습니다 (있는 경우). 그렇기 때문에 "이 답변을 정답으로 게시하고 있지만 추가 할 내용이 있으면 계속 논의 할 수 있습니다"라는 한정자를 추가 한 이유입니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.