로지스틱 회귀 계수 분석


12

다음은 로지스틱 회귀 계수 목록입니다 (첫 번째는 인터셉트입니다).

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

절편이 너무 낮아서 실제로 0과 같은 계수를 갖는 것이 이상하다는 것을 알았습니다. 나는 이것을 어떻게 해석 할 것인지 완전히 확신하지 못합니다. 0은 특정 변수가 모델에 전혀 영향을 미치지 않음을 나타 냅니까? 그러나 열을 입력하여 만드는 절편이 갑자기 정말로 중요합니까? 또는 내 데이터가 잘못되어 모델이 제대로 맞지 않을 수 있습니다.


2
다른 변수의 범위 또는 표준 편차는 무엇입니까? 추정치가 0 인 변수의 표준 편차와 다른 변수에 비해 큰 차이가 있습니까? 표준 편차가 다른 것보다 작은 경우 계수가 0을 기대할 수 있습니다 (숫자 정밀도). 또한 절편은 기본적으로 평균이 큰 변수가 있음을 의미합니다 (0에서 멀어짐). 변수를 중앙에 배치하면 해석하기가 더 쉬워지고 다른 변수의 베타는 변경되지 않습니다 (반복 알고리즘 오류는 제외).
chanceislogic

1
6 번째 변수의 모든 값에서 1027을 빼면 절편이 0에 가까워집니다. 기분이 나아질까요? :-)
whuber

4
문맥이 전혀없는 이와 같은 계수 목록을 표시하면 "Joe has 31, 그렇게 많지 않습니까?" 31 무엇 을 말하지 않고 . 31 대? 많이. 아이 31 명? 많이 하나! 31 달러? 별로.
Peter Flom-Monica Monica 복원

1
0의 계수와 관련하여 : 나는 이것이 모든 계수를 여기에 붙여 넣기 전에 XL에 넣는 인공물로 볼 수 있습니다. 우리가 일반적으로 보는 소수 자릿수와 일치하는 것으로 보입니다. XL 셀 중 하나가 정수로 반올림되어 0이 될 수 있습니다. 나는 이런 일이 일어났다.
rolando2

입력 해 주셔서 감사합니다. 정말 고마워요! 많은 질문에 답변했습니다
shiu6rewgu

답변:


16

내 의견으로는 의견에 아주 좋은 정보가 있습니다. 로지스틱 회귀 분석에 대한 몇 가지 기본 사실이 이러한 것들을 더 이해하기 쉽게 만드는지 궁금합니다. 그런 점을 염두에두고 몇 가지 사항을 말씀 드리겠습니다. 로지스틱 회귀 분석에서 계수는 로지스틱 척도에 있습니다 (따라서 이름은 ...). 관측 값에 대한 공변량 값을 연결하고 계수에 곱한 다음 합하면 logit이 됩니다.
e 2.718281828 e 2 = 7.389056 7.389056

logit=β0+β1x1+β2x2+...+βkxk
로 짓은 누구에게나 직관적으로 이해되지 않는 숫자이므로 숫자로 무엇을해야하는지 알기가 매우 어렵습니다 (예 : 매우 높거나 낮음). 이러한 것들을 이해하는 가장 좋은 방법은 그것들을 원래 척도 (logits)에서 이해할 수있는 것, 특히 확률로 변환하는 것입니다. 그렇게하려면, 로짓을 가져 가서 지수화하십시오. 즉, 숫자 e ( ) 를 취하여 로짓의 거듭 제곱으로 올립니다. 로짓이 2라고 상상해보십시오. 이것은 당신에게 확률을 줄 것입니다. 확률을 1과 확률로 나누어 확률을 확률로 변환 할 수 있습니다. 사람들은 일반적으로 확률을 다루기가 훨씬 쉽습니다. e2.718281828
e2=7.389056
7.3890561+7.389056=0.880797

모형의 경우 모든 변수의 값이 정확히 0 인 관측치가 있다고 가정하면 모든 계수가 제거되고 절편 값만 남게됩니다. 값을 지수화하면 확률로 0을 얻습니다 (-700이면 확률은 -305 일 것입니다. 그러나 컴퓨터에서 -1060에 대한 값을 줄 수는 없습니다. 내 소프트웨어의 수치 제한으로 인해 너무 작습니다). 이러한 확률을 확률로 변환, ( 0 / ( 1 + 0 )9.8×103050/(1+0)), 다시 0을 제공합니다. 따라서 출력에서 ​​말하는 것은 모든 변수가 0 일 때 이벤트 (무엇이든)가 단순히 발생하지 않는다는 것입니다. 이. 표준 로지스틱 회귀 방정식 (예를 들어, 제곱 항이없는)은 공변량과 성공 확률 간의 관계가 단조 증가 또는 단조 감소라고 가정합니다.. 즉, 항상 더 커지고 (또는 더 작아짐), 한 방향으로 충분히 가면 숫자가 작아서 내 컴퓨터가 0과 구별 할 수 없게됩니다. 짐승의 본성. 이와 같이 모델의 경우 공변량이 0 인 곳으로 이동합니다.

계수 0에 관해서는 제안한 것처럼 변수가 영향을 미치지 않는다는 것을 의미합니다. 변수가 효과를 갖지 않는 것이 합리적입니다. 그럼에도 불구하고 기본적으로 정확히 0의 계수를 얻지 못할 것입니다.이 경우 왜 변수가 발생했는지 모르겠습니다. 의견은 몇 가지 가능한 제안을 제공합니다. 다른 변수를 제공 할 수 있습니다. 즉, 해당 변수에 변형이 없을 수 있습니다. 예를 들어, 성별로 코딩 된 변수가 있지만 샘플에 여성 만있는 경우. 그것이 실제 답인지 여부는 알 수 없습니다 (예를 들어 R NA은 그 경우 반환 하지만 소프트웨어는 다릅니다). 이것은 또 다른 제안 일뿐입니다.


2
자연 로그 확률에 을 곱하면 10을 밑으로 할 확률을 얻을 수 있습니다 . 당신이 얻는 대답은 대략 입니다. 작은 확률의 경우 확률은 확률과 같습니다. 따라서 모든 공변량이 0 일 때 대략 의 확률이 있습니다. 460104603067003746010460
chanceislogic

10

절편 해석

로지스틱 회귀 분석은 '1'의 사후 확률을 제공한다고 생각할 수 있습니다. 절편은 데이터 세트에서 파생 된 범주에 대한 우선 순위를 나타냅니다. 구체적으로, 모형에 절편 만있는 경우에 대한 log (p (Y = 1) / p (Y = 0)의 경험적 추정치입니다. 범주 형 공변량이있을 때 '공통'클래스와 공변량이 더 일반적으로 0에있는 경우 (그러나 해석 적으로 덜 해석되는 경우) 따라서 음수는 아마도 '1'이 표본의 경우에서 드물다는 것을 나타냅니다. 이 절편 값에 대한 걱정 가치가 없어 그래서 0 다시 모든 공변량 가지고, 거기에 더 관찰이 없을 수 있습니다. 이 논의는 매우 분명하다.

매개 변수들 사이에서 이러한 문제의 편리한 분리로 인해,보다 균형 잡힌 샘플을 훈련 시키고 절편 만 조정함으로써 범주 불균형을 교정 할 수 있습니다 . 자세한 내용은 King and Zeng 을 참조하십시오 .


"이 토론"에 대한 링크가 사라진 것 같습니다. 이 링크를 복구 할 수 있습니까?
Alexey Grigorev

1
@ 알렉세이-grigorev은 내가 UCLA 링크 업데이트
conjugateprior

그리고 공감대를 얻었습니다. 매우 이상합니다.
conjugateprior
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.