연속 종속 변수에 로지스틱 회귀 사용


9

최근에 연구 논문의 개정 본을 받았으며 다음은 논문에 대한 검토 자의 의견입니다.

하나의 모델에서 얻은 결과는 특히 설득력이 없지만 특히 선형 회귀는 특이 치를 다루는 데 부족합니다. 저자는 로지스틱 회귀 분석을 시도하고 해당 결과를 현재 결과와 비교할 것을 제안합니다. 유사한 관찰 결과가 얻어지면 결과는 더 확실해집니다.

검토 자의 의견이 맞습니까? 로지스틱 회귀가 다중 선형 회귀보다 낫습니까?

문제는 내 종속 변수가 범주 형이 아니며 척도 변수라는 것입니다. 내가 지금 무엇을 할 수 있을까? 내 모델을 평가하기 위해 어떤 다른 회귀 방법을 권장합니까?

점수는 다음 표의 종속 변수입니다. 최근 성, 빈도, 임기 및 최종 점수는 독립적 인 변수입니다.

여기에 이미지 설명을 입력하십시오

사이트에서 이러한 변수를 추출했으며 이러한 독립 변수점수상당한 영향미친 다고 가정합니다 . 따라서 다음과 같은 모델을 나타냅니다.

여기에 이미지 설명을 입력하십시오


그건 그렇고,이 선형 모델의 R 제곱 값은 0.316입니다! 검토자는이 값에 대해서도 언급했습니다.

학습 된 계수의 품질에 대한 지표가 없기 때문에 결과가 설득력이 없습니다. R ^ 2가 작 으면 모형이 과적 합 될 수 있으므로 성능이 우수하지 않을 수 있습니다.

R 제곱에 대해 0.316이 매우 낮습니까? 이전 논문에서 비슷한 값을 많이 보았습니다.

여기에 이미지 설명을 입력하십시오


이는 사소한 부분이지만 점수를 계산하는 방법을 이해하면 좋은 답변을 제공하는 데 도움이 될 수 있습니다. 그것에 대해 알려주기 위해 질문을 편집 할 수 있습니까?
whuber

게시물을 수정했습니다. 내 통계 지식이 좋지 않습니다. 도와 주면 대단히 감사하겠습니다.
PSS

1
종속 종속 변수에서 로지스틱 회귀를 실행하는 것에 대한 아이디어가 없습니까 ???
PSS

1
점수가 0에서 100 사이 여야합니까? 이 경우 100으로 나누고 결과 변수에 대해 로지스틱 회귀를 수행 할 수 있습니다.이 변수는 항상 0과 1 사이에 있습니다. 그런 식으로 일하는 것이 조금 이상하다고 느낍니다. 아마도 그게 검토자가 제안하는 것입니까?
Sam Livingstone

2
아니요, 점수를 0-1로 조정하거나 귀중한 정보를 버리는 것은 전혀 좋은 해결책이 아닙니다.
Frank Harrell

답변:


7

비례 배당 서수 로지스틱 회귀 모형은이 문제에 적합합니다. 수천 개의 고유 값을 허용 할 수있는 효율적인 구현을 위해서는 R 패키지 의 함수를 참조하십시오 .Yormrms


R과 필요한 모든 패키지를 설치했습니다. orm 기능에 대한 예제를 제공해 주시겠습니까? 검색하여 찾지 못했습니다. 내 회귀 모델의 코드는 무엇입니까?
PSS

1
문서를 연구하는 데 시간을 할애 할 가치가 있습니다. 연속 회귀 모델에 관한 장을 코드로 사용한 자세한 사례 연구는 biostat.mc.vanderbilt.edu/CourseBios330 아래 유인물을 참조하십시오 . Y
Frank Harrell

1

1, 2, 3 및 4 값을 각각 1, ....., 4 번째 백분위 수의 점수에 할당하여 정렬 된 프로 빗 / 로짓 모델을 시도 할 수도 있습니다.


가장 낮은 4 백분위 수 (100 개 중)로 줄이려는 변수는 무엇입니까? 이것이 무엇을 달성하고 왜 그런가?
whuber

-1

점수를 이분법 화 (이진 변수로 변환) 할 수 있습니다. 점수가 0에서 100 사이이면 50보다 작은 점수에 0을 할당하고 그렇지 않으면 1을 할당 할 수 있습니다. 그래도 이것이 이상 값을 다루는 좋은 방법이라고 들었습니다. 매우 높은 점수 나 낮은 점수를 구별하는 것이 불가능하기 때문에 특이 치를 숨길 수 있습니다. 이것은 나에게 큰 의미가 없지만 시도해 볼 수 있습니다.

더 중요한 것은 모든 공변량과 반응 변수를 로그 변환하는 이유는 무엇입니까? 이것은 추정치와 에 영향을 미칩니다 (생각합니다).βR2

또한 검토자는 작은 가 과적 합을 시사한다고 말합니까? 나는 가 높지만 모델이 새로운 데이터에 대해 성능이 좋지 않을 때 과적 합이라고 생각했다 . 많은 수의 모수로 예측하려는 관측치가 거의 없을 때 과적 합이 발생하는 경향이 있습니다. 7 개의 매개 변수로 설명하려고하는 8 개의 관측치가 있으므로 이것은 모델 2에서 수행하는 작업입니다.R2R2

나는 통계에 대해 많은 것을 알고 있다고 생각하지 않을 것이지만, 그의 의견을 바탕 으로이 검토자가 훨씬 덜 알 수있는 것처럼 보입니다.


답장을 보내 주셔서 감사합니다. 모든 변수가 왜곡되었으므로 자연 로그 변환됩니다. 내가 맞아? "과적 합 (overfitting)"의 의미를 분명히 해주셔서 감사합니다! 실제로, 나는 과적 합이 무엇을 의미하는지 몰랐습니다. 이제 리뷰어와 편집자에게 회신 할 수 있습니다. 그건 그렇고, 내 평가를보다 견고하게하기위한 당신의 권고는 무엇입니까? 어떤 회귀 방법이 더 낫다고 생각합니까?
PSS

6
어떤 이유로 든 를 이분법 화하지 마십시오 . Y
Frank Harrell

@FrankHarrell은 데이터를 이분법 화하기 위해 임의의 임계 값을 선택하는 것이 의미가 없다는 것에 동의합니다. 이것이 전체 데이터 세트입니까? 관측치가 너무 적 으면 데이터가 정규 분포로 표시되지 않습니다! 또한 처리하고있는 데이터 유형도 이해해야합니다. 그들이 분배 할 수있는 가치 범위는 무엇입니까? 나는 서수 로지스틱 회귀를 사용하는 Frank의 제안을 살펴볼 것이지만, 회귀에서의 값 대신 점수의 순서를 사용한다고 추측합니다.
폰티 코스

@PotentialScientist, 분포가 왜곡되었는지는 중요하지 않습니다. OLS (일반) 회귀 분석에서는 잔차의 분포 만 중요합니다. 여기에서 what-if-residuals는 정규적으로 분포되어 있지만 y-is-not는 아닙니다 . 예측 변수 변환 의 결과로 모델에 발생한 상황을 이해하기 위해 로그 해석 변환 예측기 를 읽어보십시오 .
gung-복직 모니카

@PotentialScientist 어떻게 지내세요? CSV 형식으로 데이터를 제공하기 위해 질문을 편집하면 Harrell 교수가 제안한 orm 기능을 실행할 수 있으며 출력을 분석 할 수 있습니다. R의 기본 사항 (파일을 읽고 회귀를 실행하는 방법)을 배우는 것이 좋습니다.
폰티 코스

-1

연속적인 종속 변수에도 로지스틱 회귀를 적용 할 수 있습니다. 예측 score이 항상 내부에 있는지 확인하려면 의미 가 있습니다 [0, 100](스크린 샷에서 100 포인트 척도라고 판단합니다).

그것을 달성하려면 점수를 100으로 나누고이 질문과[0,1] 같이이 목표 변수로 로지스틱 회귀를 실행 하면 됩니다.R

glm(y~x, family="binomial", data=your.dataframe)

이 접근법이 특이 치에 도움이되는지 여부는 알 수 없습니다. 예상치의 특이 치에 따라 다릅니다. 그러나 때로는 종속 변수에 자연적인 하한과 상한이있는 경우 적합도 ( 조차)가 향상됩니다 .R2

두 번째 질문에 관해서는, 이 과적 합없이 데이터에서 짜낼 수있는 최선일 수 있습니다. 추론의 목적으로 모델을 구축하는 경우 중요한 계수가 중요하다면 낮은 는 완전히 좋습니다. 모델이 과적 합되었는지 확인하려면 테스트 세트에서 확인 하거나 교차 검증을 수행 할 수 있습니다.R20.3R2R2

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.