선형 회귀 분석에서 백분율 결과를 사용하는 데 어떤 문제가 있습니까?


11

많은 결과가 백분율과 같이 표현되는 연구가 있으며 이러한 결과에 대한 일부 범주 형 변수의 영향을 평가하기 위해 여러 선형 회귀 분석을 사용하고 있습니다.

선형 회귀 분석 결과가 연속 분포라고 가정하기 때문에 이러한 모델을 백분율에 적용하는 방법 론적 문제가 있습니까? 0과 100 사이로 제한됩니까?


1
이 비율이 연속적입니까 (예 : 우유의 크림 비율과 같은) 이산 형 (이항식 비율, 일부 범주의 총 ​​개수 중 하나)입니까?
Glen_b-복지 주 모니카

1
음 ... 차이가 없습니다. 둘 다 연속적이지 않습니까? 어쨌든 나는 두 번째로 사람들에 대해 이야기하기 때문에 내 데이터를 더 잘 묘사한다고 생각합니다.
Bakaburg

카운트를 카운트로 나눈 값은 확실히 이산 적입니다. 실제로, 분자는 일반적으로 이항으로 모델링되고, 분모는 (상수로 처리) 조절되므로, 비율은 보통 이항으로 처리됩니다. 그러나 분모가 랜덤 변수 인 경우에도 샘플 공간을 계산할 수 있으므로 비율은 여전히 ​​불 연속적입니다.
Glen_b -Reinstate Monica

답변:


17

불연속 적이거나 지속적인 가능성과 관련된 문제를 다룰 것입니다.

  1. 평균의 설명과 관련된 문제

    응답이 제한되어 있습니다. 그러나 피팅하려는 모델은 제한이 없으므로 경계를 통해 바로 폭발 할 수 있습니다. 귀하의 적합치 중 일부는 불가능할 수 있으며 예측 된 값은 궁극적으로 있어야합니다.

    진정한 관계는 결국 한계에 가까워 질 때보 다 중간에 평평 해져야하므로 어떤 방식으로 구부러 질 것으로 예상됩니다.

  2. 분산 설명과 관련된 문제

    평균이 한계에 가까울수록 분산도 감소하는 경향이 있으며 다른 것들은 동일합니다. 평균과 경계 사이의 공간이 적으므로 전체 변동성이 감소하는 경향이 있습니다 (그렇지 않으면 평균이 경계에 가깝지 않은 쪽의 평균점을 더 멀리하여 경계에서 벗어나는 경향이 있습니다).

(실제로, 어떤 동네의 모든 모집단 값이 정확히 한계에 도달하면 분산이 0이됩니다.)

그러한 경계를 다루는 모델은 그러한 영향을 고려해야합니다.

비율이 계수 변수에 대한 비율 인 경우 비율 분포의 공통 모델은 이항 GLM입니다. 평균 비율과 예측 변수의 관계 형식에 대한 몇 가지 옵션이 있지만 가장 일반적인 방법은 로지스틱 GLM입니다 (여러 다른 선택이 일반적으로 사용됨).

비율이 연속적 인 경우 (우유의 크림 비율과 같은) 여러 가지 옵션이 있습니다. 베타 회귀는 상당히 일반적인 선택으로 보입니다. 다시 말하지만, 평균과 예측 변수 사이의 물류 관계를 사용하거나 다른 기능적 형태를 사용할 수 있습니다.

0과 1 사이의 결과 (비율 또는 분수)회귀 도 참조하십시오 .


1
+1과 나는이 주제에 대한 우리의 "마스터"스레드로 볼 수있는 것에 대한 링크를 추가하기 위해 자유를 얻었습니다. (gung의 답변은 베타 및 물류 옵션도 포함합니다).
amoeba

2
일반적인 일반적인 주장은 모든 값이 0이고 마찬가지로 1 = 100 %이고 모든 값이 1 인 경우에만 가능한 평균이 0이라는 것입니다. 따라서 비율이 기준인지 여부에 관계없이 극단에서 분산은 0이어야합니다. 계산 또는 측정. 다른 모든 값은 일정 할 수 있지만 실제로는 매우 드 rare니다. 따라서 분산은 0과 1 사이의 어떤 값에 대해 최대가 될 것이다
닉 콕스

설명 된 두 가지 문제에 대한 참조를 제공 할 수 있습니까?
user1607 2016 년

3

결과가 0과 1 사이 인 경우와 정확히 동일하며,이 경우는 일반적으로 로지스틱 회귀와 같은 일반화 된 선형 모델 (GLM)로 처리됩니다. 인터넷에는 로지스틱 회귀 및 기타 GLM에 대한 훌륭한 입문서가 많이 있으며 Agresti가 주제에 대해 잘 알려진 책도 있습니다.

베타 회귀는 실행 가능하지만 더 복잡한 대안입니다. 로지스틱 회귀 분석은 응용 프로그램에 적합하며 일반적으로 대부분의 통계 소프트웨어로 구현하기가 더 쉽습니다.

보통 최소 제곱 법을 사용하지 않는 이유는 무엇입니까? 실제로 사람들은 때때로 "선형 확률 ​​모델"(LPM)이라는 이름을 사용합니다. LPM이 "나쁜"가장 확실한 이유는 특정 범위 내에 있도록 결과를 제한하는 쉬운 방법이 없기 때문에 1 이상 (또는 100 % 또는 기타 유한 상한)과 0 미만 (또는 다른 하한). 같은 이유로 상한 근처의 예측은 체계적으로 너무 높은 경향이 있고, 하한 근처의 예측은 너무 낮은 경향이 있습니다. 선형 회귀의 기본 수학은 이와 같은 경향이 존재하지 않는다고 명시 적으로 가정합니다. 일반적으로 로지스틱 회귀 분석에 LPM을 적용 할만한 큰 이유는 없습니다.

또한 LPM을 포함하여 모든 OLS 회귀 모델을 특수한 종류의 GLM으로 정의 할 수 있으며이 맥락에서 LPM은 로지스틱 회귀와 관련이 있습니다.


4
이 답변의 전반적으로 가치가 있지만, 독자를 혼란스럽게 할 수있는 잘못된 정보가 포함되어 있습니다. 첫 번째 단락에서 로지스틱 회귀에 대한 설명은 종속 변수의 로그 형 변환과 선형 회귀에 대한 설명처럼 들립니다. 로지스틱 회귀가 아닙니다. 계수의 해석도 옳지 않습니다. "LPM"의 더 중요한 문제는 데이터가 극단에 가까울 때 잔차의 비대칭 분포를 나타낼 가능성이 있으며, 이는 회귀에 대한 iid 가정의 중요한 위반입니다.
whuber

나는 그것이 승산 비와 같은 것에 가치가 있다고 생각하지 않았다. 나는 그 것들을 제거하고 OP가 그것을 읽도록 할 것입니다. 잔차에 대한 좋은 점.
shadowtalker

(+1) 건설적인 답변에 감사드립니다!
whuber

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.