로지스틱 회귀 계수의 중요성은 무엇입니까?


42

저는 현재 2000 년과 2004 년 선거에서 투표 장소와 투표 선호도에 관한 논문을 읽고 있습니다. 여기에는 로지스틱 회귀 계수를 표시하는 차트가 있습니다. 몇 년 전부터 조금 읽고로지스틱 회귀 분석은 여러 독립 변수와 이진 반응 변수 간의 관계를 설명하는 방법이라는 것을 알고 있습니다. 내가 혼란스러워하는 것은, 아래 표를 보면 남한이 로지스틱 회귀 계수가 .903이기 때문에 남부인의 90.3 %가 공화당에 투표한다는 의미입니까? 메트릭의 물류 특성으로 인해이 직접적인 상관 관계가 존재하지 않습니다. 대신, 나는 .903의 남쪽이 .506의 회귀와 함께 공화당을 산 / 평원보다 더 많이 투표한다고 말할 수 있다고 가정합니다. 후자의 경우를 감안할 때, 무엇이 중요한지 아닌지를 어떻게 알 수 있습니까?이 로지스틱 회귀 계수가 주어지면 공화당 투표율을 추정 할 수 있습니다. 로지스틱 회귀 계수를 보여주는 표

참고로 잘못 언급 된 내용이 있으면 게시물을 편집하십시오.


이것은 후속 질문에 가깝습니다 (아마 게시하지 말아야 함). "비율을 추정 할 수 있습니까?"라는 좋은 방법을 찾았습니까?
Stefan Andersson

2
나는 당신이 이것을 독립형 질문으로 공식화하고 여기에 답하기보다는 별도로 게시하는 것이 더 좋을 것이라고 생각합니다.
추기경

사람이 종이에 대해 궁금해 경우, SC 맥키와 JM Teigen의이 분파와 2000 년과 2004 년 미국 대통령 선거에서 유권자 위치 : 레즈와 블루스를 프로빙 (2009) 정치 지리
알렉스 넬슨

답변:


36

여전히 - 당신이 연습하는 이유의 뛰어난 그림처럼 질문을 가지도록 저자는 사려 깊은 같은 사람을 강제했다고 방법 도 일반 -이 같은 테이블에 회귀 모델 결과의보고를 구속의 그렇게 받아 들일 수는.

  1. 지적했듯이 로짓 계수를 문제의 예측 변수에 대해 추정되는 효과의 의미있는 표시로 변환하려고 시도 할 수 있지만 번거롭고 예측 의 정밀도 에 대한 정보를 전달하지 않습니다 . 로지스틱 회귀 모델 (특히 투표).

  2. 또한, 유의 수준의 "수준"을보고하기 위해 다중 별표를 사용하는 것은 p- 값이 효과 크기의 의미있는 지수 ( "와우- 별표 가 3 개입니다 !") 라는 오해를 강화합니다 . N이 10,000에서 20,000까지 큰 소리로 울부 짖을 때, 사소한 차이는 p <.001 blah blah에서 "중요"할 것입니다.

  3. 이런 식으로 미스테리화할 필요는 없습니다. 로지스틱 회귀 모델은 측정 오차에 따라 예측 변수에 대해 지정된 값에 조건부 결과의 확률을 예측하기 위해 (결정적 계산 또는 더 나은 스틸 시뮬레이션을 통해) 사용될 수있는 방정식입니다. 연구원은한다 그래서 보고실제 예측의 중요성을 쉽게 파악할 수있는 단위로 측정 할 때 관심 예측 변수가 관심 결과 변수 및 관련 CI의 확률에 미치는 영향 파악을 확실히하려면 결과가 그래픽으로 표시되어야합니다. 예를 들어, 연구원은 도시 유권자와 반대되는 농촌이 공화당을 투표 할 가능성을 X pct 포인트만큼 증가 시킨다고보고 할 수 있습니다 (2000 년 17 세 정도 추측; "4로 나누기"는 0.95의 신뢰 수준에서 합리적인 휴리스틱) +/- x %-그것이 유용한 정보라면.

  4. 의사 R ^ 2의보고는 또한 모델러가 조명하려는 시도보다는 통계적 의식에 관여하고 있다는 신호입니다. "의사 R ^ 2"를 계산하는 방법에는 여러 가지가 있습니다. 여기에 사용 된 것이 지정되어 있지 않다고 불평 할 수도 있지만 왜 귀찮게합니까? 모두 무의미한 옆에 있습니다. 누구나 의사 R ^ 2를 사용하는 유일한 이유는 OLS 선형 회귀가 통계의 성배이며 자신이 알아 내려고 시도하는 유일한 것으로 생각한다는 것을 고문하고있는 검토 자 (25 년 이상 전에)를 괴롭히는 검토 자입니다 "분산 설명"입니다. 로지스틱 분석에 적합한 전체 모형의 적합성을 평가할 수있는 수많은 방어 방법이 있으며 가능성 비율은 대체 가설을 반영하는 모형을 비교하기위한 의미있는 정보를 전달합니다. King, G. 통계와 거짓말하지 않는 법. 오전. J. Pol. 공상 과학 30, 666-687 (1986)]에 기재되어있다.

  5. 이와 같은 표에보고가 어느 정도 제한되어있는 논문을 읽는 경우 혼동하지 말고 겁내지 말고 감명을주지 마십시오. 대신 화를 내고 연구원에게 형편없는 일을하고 있다고 말하십시오 (특히, 신비주의와 경외로 지역의 지적 환경을 오염시키는 경우) / c 그들은 후자가 이해할 수없는 테이블을 생성 할 수 있습니다). 이러한 아이디어에 대한 똑똑하고 온화한 설명은 King, G., Tomz, M. & Wittenberg., J. 통계 분석을 최대한 활용 : 해석 및 프리젠 테이션 개선을 참조하십시오 . 오전. J. Pol. 공상 과학 44, 347-361 (2000); 및 Gelman, A., Pasarica, C. & Dodhia, R.우리가 전파하는 것을 연습 해 봅시다 : 테이블을 그래프로 바꾸기 . 오전. 통계 56, 121-130 (2002)]에 기재되어있다.


19

여기서의 개념은 로지스틱 회귀 분석에서 남부인이 공화당에 투표 할 수있는 실제 확률이 아니라 "로그 확률"이라는 변형 된 버전을 예측한다는 것입니다. 확률 대신에 우리는 를 처리하고 로그 확률에 대한 선형 회귀 계수를 찾습니다.log p / ( 1 p )plogp/(1p)

z = 로그 xx=1/(1+ez) f1(x)=로그xz=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
휴리스틱 : 4-logit coeff / 4로 나누면 prob에서 대략 pct-pt diff입니다. 1 단위 변경에서. "βsubn charcteristic = z가있는 사람은 x % 일 가능성이 높습니다"라고 말하는 것과 다릅니다. 언급 한 바와 같이 βsub0을 추가하고 참조 클래스와 관련된 가능성을 빼야 할 필요는 없습니다. 예측 변수 공선 성을 고려해야합니다. B / c가 남부 인 경우 다른 예측 변수와 상관 관계가있는 것은 사실이 아닙니다. 남부 투표 투표는 βsub0-NE에 대한 변환 된 로그 확률과 남쪽에 대한 변환 된 로그 확률입니다. "남쪽에서
나올

1
'실제 확률은 0.43에서 1로 떨어졌습니다.' 0.43은 처음부터 왔습니까?
Monica Heddneck 2016 년

0.30.3/(10.3)0.43

6

로지스틱 회귀 분석의 계수는 참조 범주와 비교하여 특정 지역 / 인구 통계가 공화당에 투표하는 경향을 나타냅니다. 긍정적 인 편견은 지역이 공화당에 투표 할 가능성이 높고 그 반대도 음의 계수에 해당한다는 것을 의미합니다. 절대 값이 클수록 작은 값보다 강한 경향이 있습니다.

참조 범주는 "동북"및 "도시 유권자"이므로 모든 계수는이 특정 유권자 유형과의 대비를 나타냅니다.

일반적으로 로지스틱 회귀 분석의 계수에 대한 제한은 [0, 1], 절대 값이더라도 제한되지 않습니다. Wikipedia 기사 자체에는 계수가 -5와 2 인 로지스틱 회귀의 예가 있습니다.


5

또한 "무엇이 중요한지 아닌지 어떻게 알 수 있습니까?"라고 물었습니다. (실제 또는 실질적 의미는 또 다른 문제이기 때문에 통계적으로 유의미한 것으로 가정합니다.) 표의 별표는 각주를 나타냅니다. 일부 효과는 작은 p- 값 을 갖는 것으로 나타납니다 . 이것들은 각 계수의 중요성에 대한 Wald 검정을 사용하여 얻습니다. 무작위 표본 추출, p <.05를 가정하면 , 더 큰 모집단에 그러한 영향이 없다면,이 크기의 표본에서 관찰 된 것보다 강한 연결을 볼 확률이 0.05보다 작다는 것을 의미합니다. . 이 사이트에는 p <.05가 아닌 미묘하지만 중요한 관련 요점을 논의하는 많은 스레드 가 있습니다. 더 큰 인구 집단에 연결이 없을 확률이 0.05임을 의미합니다.


5

rolando2와 dmk38이 언급 한 것의 중요성을 강조하겠습니다. 중요성은 일반적으로 잘못 읽히고 결과가 표 형식으로 표시 될 때 발생할 위험이 높습니다.

Paul Schrodt는 최근 이 문제에 대한 훌륭한 설명을 제공했습니다.

연구자들은 유의성 검정에 대한 올바른 해석을 고수하는 것이 거의 불가능하다는 것을 발견했습니다. p- 값은 귀무 가설의 [일반적으로] 비현실적인 조건 하에서 결과를 얻을 가능성을 나타냅니다. 이것은 당신이 알고 싶어하는 것이 아닙니다. 일반적으로 데이터가 주어지면 독립 변수의 효과의 크기를 알고 싶습니다. 그것은 빈번한 질문이 아니라 베이지안 질문입니다. 대신 우리는 p- 값이 마치 연관성의 강점을 준 것처럼 해석되는 것을 본다 : 이것은 우리 저널에 스며 들어있는 유비쿼터스의 별과 P- 값의 신비로운 컬트이다. (fn) 이것은 p- 값이 말하는 것이 아니다 그럴 수도 없습니다.

내 경험상이 실수를 피하는 것은 거의 불가능하다. 문제를 완전히 알고있는 매우 신중한 분석가조차도 서면 박람회에서 문제를 피했다고해도 결과를 구두로 논의 할 때 종종 모드를 전환 할 것이다. 그리고 우리가 대학원 논문에서이를 수정하는 데 소비 한 수천 시간과 갤런의 잉크에 대해서도 추측하지 마십시오.

(FN) 다른 문제에 또한 알린다 dmk38 언급 각주 : "[스타와 P-값 유비쿼터스 신비로운 컬트 상기 최고 R2의 초기 및 동등 퍼베이시브 컬트를 대체, ...에 의해 파괴 왕 (1986)


아, 방금 편집 한 답변에 King 인용을 추가했습니다. 이 기사는 통계가 OLS 회귀 분석에 의미가있는 경우에도 R ^ 2 매니아 (여전히 계량 경제학 고유)를 철거합니다. King은 또한 의사 R ^ 2는 "변형 설명"과 관련된 무의미 함을 확장하기 위해 제조 된 횡설수설이라고 지적했다.
dmk38
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.