로지스틱 회귀 계수가 의미가 있습니까?


14

여러 기능에서 이진 분류 문제가 있습니다. (정규화 된) 로지스틱 회귀의 계수가 해석 가능한 의미가 있습니까?

기능이 미리 표준화되어 있기 때문에 영향의 크기를 나타낼 수 있다고 생각했습니다. 그러나 내 문제에서 계수는 선택한 기능에 민감하게 의존하는 것으로 보입니다. 계수의 부호조차도 입력으로 선택된 다른 피쳐 세트로 변경됩니다.

계수의 값을 검사하고 가장 의미있는 계수를 찾고 그 의미를 단어로 표현 하는 올바른 방법은 무엇 입니까? 일부 적합 모형과 계수의 부호가 데이터를 정렬 할 때에도 잘못 되었습니까?

(기능간에 가장 높은 상관 관계는 0.25이지만 확실히 역할을합니까?)


정기적으로 의미하는 바를 명확하게 설명해 주시겠습니까? L2 페널티 항이 있습니까? 그렇다면 교차 검증 등을 통해 최적의 요인을 검색 했습니까?
seanv507

예, 계수에 대해 L2 페널티 항을 허용합니다. 최적의 정규화 요소를 검색했지만 정방향 선택과 같은 기능 선택을 아직 사용하지 않았습니다. 그러나 계수가 내가 포함하는 기능의 선택에 너무 민감하게 의존하기 때문에 불확실하게 느껴집니다. 각 지형지 물이 긍정적 인 클래스에 긍정적 또는 부정적 영향을 미친다고 가정하면, 그 강도와 방향을 어떻게 결정할 수 있습니까?
Gerenuk

답변:


14

출력의 계수는 의미가 있지만 대부분의 사람들에게는 직관적이지 않으며 확실히 나에게는 그렇지 않습니다. 이것이 사람들이 승산 비로 바꾸는 이유입니다. 그러나 승산 비의 로그는 계수입니다. 마찬가지로 지수 계수는 승산 비입니다.

계수는 종속 변수의 각 수준에있을 확률을 예측하는 공식에 연결하는 데 가장 유용합니다.

예를 들어 R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

연령에 대한 모수 추정치는 1.64입니다. 이것은 무엇을 의미 하는가? 음, 절편 (-21.24)에 대한 모수 추정값과 결합하면 menarche의 가능성을 예측하는 공식을 얻을 수 있습니다.

(미디엄)=11+이자형21.241.64이자형

이자형1.64=5.16


4

계수를 직접 해석하는 것은 어렵고 오도 할 수 있습니다. 변수 사이에 가중치가 할당되는 방법에 대한 보장은 없습니다.

설명하는 상황과 유사한 빠른 예 : 사용자와 웹 사이트 간의 상호 작용 모델을 작업했습니다. 이 모델에는 사용자 세션의 첫 시간과 두 번째 시간 동안 "클릭"횟수를 나타내는 두 가지 변수가 포함되었습니다. 이 변수들은 서로 밀접하게 관련되어 있습니다. 해당 변수에 대한 두 계수가 모두 양수이면 쉽게 오해 할 수 있으며 계수가 높을수록 "높은"중요도를 나타낼 수 있습니다. 그러나 다른 사람을 추가 / 제거하면변수 우리는 첫 번째 변수에 양의 부호가 있고 다른 하나의 음수가있는 모델로 쉽게 끝날 수 있습니다. 우리가 결론을 내린 이유는 사용 가능한 대부분의 변수 쌍 사이에 약간의 상관 관계가 있었기 때문에 계수를 사용하여 변수의 중요성에 대한 확실한 결론을 얻을 수 없었기 때문입니다. 이 해석은 정확합니다).

하나의 아이디어를 해석하기 쉬운 모델을 얻으려면 Lasso (L1 표준 최소화)를 사용하는 것이 좋습니다. 변수가 서로 덜 연관되어 있기 때문에 드문 솔루션으로 이어집니다. 그러나이 방법은 이전 예제의 두 변수를 쉽게 선택하지 못합니다.

특정 변수 또는 변수 세트의 중요성을 평가하려면 일부 기능 선택 방법을 직접 사용하는 것이 좋습니다. 이러한 접근 방식은 일부 기준에 따라 변수의 중요성에 대한 훨씬 더 의미있는 통찰력과 심지어 전 세계 순위로 이어집니다.


0

계수는 가장 확실하게 의미가 있습니다. 일부 소프트웨어 패키지에서 모델은 두 가지 유형의 계수 중 하나를 생성하기 위해 두 가지 방법 중 하나로 지시 될 수 있습니다. 예를 들어 Stata에서는 Logistic 명령 또는 logit 명령을 사용할 수 있습니다. 하나를 사용하면 모형이 기존 계수를 제공하고 다른 하나를 사용하면 승산 비를 제공합니다.

하나는 다른 것보다 훨씬 더 의미가 있다는 것을 알 수 있습니다.

귀하의 질문에 대해 "... 계수는 감도에 의존하는 것 같습니다 ...".

결과는 모델에 넣은 변수에 따라 다르다는 말입니까?

그렇다면 회귀 분석을 수행 할 때 이것이 사실입니다. 그 이유는 회귀 분석이 많은 수의 숫자를보고 자동으로 처리하기 때문입니다.

결과는 변수가 서로 관련되는 방식과 측정되지 않은 변수에 따라 다릅니다. 그것은 과학만큼이나 예술입니다.

또한 모형에 표본 크기와 비교하여 예측 변수가 너무 많으면 기호가 거칠게 뒤집힐 수 있습니다. 모형이 추정치를 "조정"하는 데 작은 영향을 미치는 변수를 사용하고 있다고 생각합니다. 작은 보정을하는 작은 볼륨 노브와 같은 큰 효과가 있습니다. 이런 일이 발생하면 작은 효과로 변수를 신뢰하지 않는 경향이 있습니다.

반면에, 새로운 예측 변수를 추가하면 인과 적 진실에 가까워지기 때문에 처음에 징후가 변경 될 수 있습니다.

예를 들어, 그린란드 브랜디는 건강에 좋지 않지만 수입은 건강에 좋다고 가정합니다. 소득이 생략되고 더 부유 한 사람들이 브랜디를 마시는 경우, 모델은 생략 된 소득 영향을 "수령"하고 알코올이 건강에 좋다고 "말"할 수 있습니다.

의심의 여지없이, 계수가 포함 된 다른 변수에 의존한다는 것은 사실입니다. 자세한 내용은 "가변 변수 바이어스"와 "스퓨리어스 관계"를 살펴보십시오. 이전에 이러한 아이디어를 접한 적이 없다면 요구 사항을 충족하는 통계 과정에 대한 소개를 찾아보십시오. 이는 모델 수행에 큰 차이를 만들 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.