선형 회귀 분석에서 왜 반응 변수가 연속적이어야합니까?


13

선형 회귀 분석에서 반응 변수는 연속적이어야하지만 왜 그렇게됩니까? 응답 변수에 불연속 데이터를 사용할 수없는 이유를 설명하는 온라인 내용을 찾을 수 없습니다.

답변:


25

원하는 두 개의 열에서 선형 회귀를 사용하는 것을 막을 것은 없습니다. 꽤 합리적인 선택 일 수도 있습니다.

그러나, 당신이 얻는 것의 속성이 반드시 유용하지는 않을 것입니다 (예를 들어 당신이 원하는 것이 아닐 수도 있습니다).

일반적으로 회귀에서는 Y의 조건부 평균과 예측 변수 사이의 관계를 조정하려고합니다. 즉, 어떤 형태의 형식의 관계에 적합합니다 . 논란의 여지없이 조건부 기대의 행동을 모델링하는 것은 '회귀' 입니다 . [선형 회귀는 대해 하나의 특정 형태를 취할 때입니다 ]gE(Y|x)=g(x)g

예를 들어 분포가 0 또는 1에 있고 일부 예측 변수 ( ) 가 변경 될 때 변할 확률로 값 1을 취하는 응답 변수 인 극단적 인 불연속 사례를 고려하십시오 . 즉 입니다.E ( Y | x ) = P ( Y = 1 | X = x )xE(Y|x)=P(Y=1|X=x)

선형 회귀 모델과의 관계를 맞추면 좁은 간격을 제외하고는 거나 보다 큰 값을 예측할 수 있습니다 .0 1E(Y)01

0-1 데이터 및 최소 자승

실제로 기대치가 경계에 접근함에 따라 값이 점점 더 자주 그 경계의 값을 가져와야하므로 기대치가 중간에 가까울 때보 다 분산이 작아짐-분산이 0으로 감소해야 함을 알 수도 있습니다 따라서 일반적인 회귀는 가중치가 잘못되어 조건부 기대치가 0 또는 1에 가까운 지역의 데이터에 가중치를 줄입니다 .a와 b 사이에 경계가있는 변수가있는 경우 SImilar 효과가 발생합니다 (예 : 각 관측 값이 이산 카운트) 해당 관측치에 대해 알려진 총 가능한 수 중에서)

또한 우리는 일반적으로 조건부 평균이 상한 및 하한으로 점근 할 것으로 예상합니다. 즉, 관계가 일반적으로 직선이 아닌 곡선 형이므로 선형 회귀가 데이터 범위 내에서 잘못 될 가능성이 있습니다.

한쪽 경계에만있는 데이터 (예 : 상한이없는 카운트)에 대해서도 비슷한 문제가 발생합니다.

그것은의 (드문 경우) 중 하나 끝에 묶여 아니에요 개별 데이터를합니다; 변수가 많은 다른 값을 취하는 경우, 모델의 평균과 분산에 대한 설명이 합리적이라면 불연속성은 상대적으로 거의 영향을 미치지 않습니다.

다음은 선형 회귀를 사용하는 것이 완전히 합리적인 예입니다.

선형 회귀가 이해되는 x의 함수로 이산 형 y를 나타내는 플롯

얇은 x- 값 스트립에서 관찰 될 가능성이있는 몇 가지 다른 y- 값만 있지만 (폭 1 간격의 경우 약 10) 기대치를 잘 예측할 수 있으며 표준 오류 및 p- 이 특별한 경우에 가치와 신뢰 구간은 어느 정도 합리적 일 것이다. 예측 간격은 다소 덜 작동하는 경향이 있습니다 (비정규 성이이 경우 더 직접적인 영향을 미치기 때문에)

-

가설 검정을 수행하거나 신뢰 또는 예측 구간을 계산하려는 경우 일반적인 절차는 정규성을 가정합니다. 어떤 상황에서는 문제가 될 수 있습니다. 그러나 특정 가정을하지 않고 추론 할 수 있습니다.


당신이 말한 모든 것을 이해했는지는 잘 모르지만 감사하겠습니다.
ilovestats

3
특정 질문이있는 경우 답변을 시도 할 수 있습니다.
Glen_b -Reinstate Monica

@ilovestats Econometrics에 MA가 있으며이 답변이 모든 단어를 이해하는 데 가치가 있음을 확신 할 수 있습니다. 로지스틱 회귀를 도입하기 쉬운 쉬운 segue / 좋은 기초로 탁월한 답변.
d8aninja

3

내가하지 코멘트 그래서 답변 해 드리겠습니다 수 있습니다 : 일반 선형 회귀에 응답 변수 필요 하지 연속으로, 당신의 가정은되지 않습니다 :

y=β0+β1x

하지만:

E[y]=β0+β1x.

정규 선형 회귀는 제곱 잔차의 최소화에서 파생되며, 이는 연속적이고 불연속 변수에 적합하다고 여겨지는 방법입니다 (가우스 표 정리). 물론 일반적으로 사용되는 신뢰 또는 예측 구간과 가설 검정은 Glen_b가 올바르게 지적한 것처럼 정규 분포 가정에 근거하지만 매개 변수의 OLS 추정치는 그렇지 않습니다.


2

선형 회귀 분석에서 연속 반응이 필요한 이유는 우리가 만든 가정에서 비롯된 것입니다. 독립 변수 가 연속적이라면 와 의 선형 관계 는xyxy

y=β0+β1x+ϵ

여기서 은 정상입니다. 그리고 우리가 가 연속적이라는 것을 알고있는 공식을 만드십시오.yϵy

반면, 일반화 된 선형 모형 에서 반응 변수는 이산 형 / 범주 형 (로지스틱 회귀) 일 수 있습니다. 또는 카운트 (포아송 회귀).


mark999를 수정하고 주석을 다시 매핑하도록 편집하십시오.

선형 회귀는 사람들이 다르게 사용할 수있는 일반적인 용어입니다. 이산 변수에 사용하지 못하게하거나 독립 변수와 종속 변수가 선형이 아닙니다.

우리가 아무것도 가정하지 않고 선형 회귀를 실행하면 여전히 결과를 얻을 수 있습니다. 결과가 우리의 요구를 충족 시키면 전체 프로세스가 정상입니다. 그러나 Glan_b가 말했듯이

가설 검정을 수행하거나 신뢰 또는 예측 구간을 계산하려는 경우 일반적인 절차는 정규성을 가정합니다.

이 대답은 OP가 고전 회귀 분석을 할 때 일반적 으로이 가정이있는 고전 통계 책에서 선형 회귀를 요구한다고 가정하기 때문입니다.


감사합니다. 설명을 이해했습니다. 가장 감사합니다.
ilovestats

1
설명 변수가 왜 연속적이거나 불연속적일 수 있는지 설명 할 수 있습니까 (많은 출판물에서 알 수 있듯이)? 설명에서 독립 변수 x가 연속적이라고 말합니다.
ilovestats

2
이 답변이 옳지 않다고 생각합니다. 반응 변수는 설명 변수 (들)의 결정적 함수 인 것으로 가정되지 않으며, 설명 변수 (들)가 연속적이라고 가정 할 필요는 없다.
mark999

2
결과는 불연속 적이거나 contionues 일 수 있습니다.이 답변은 명백히 잘못되었습니다
Repmat

@Repmat 귀하의 의견에 감사드립니다, 내 편집을 확인하십시오.
Haitao Du

0

그렇지 않습니다. 모델이 작동하면 누가 신경 쓰나요?

이론적 관점에서 위의 답변은 정확합니다. 그러나 실제적인 측면에서 이는 모두 데이터 영역과 모델의 예측 능력에 달려 있습니다.

실제 사례 중 하나는 이전 MDS 파산 모델입니다. 이것은 대출 기관이 파산을 선언 할 가능성을 예측하기 위해 소비자 신용 대출 기관이 사용한 초기 위험 점수 중 하나입니다. 이 모델은 예측 기간 동안의 파산을 나타 내기 위해 차용자의 신용 보고서와 이진 0/1 플래그의 상세 데이터를 사용했습니다. 그런 다음 그 데이터를 ... .. 당신은 추측했다.

평범한 오래된 선형 회귀

한때이 모델을 만든 사람들 중 한 사람과 이야기 할 기회를 얻었습니다. 나는 가정 위반에 대해 그에게 물었다. 그는 그것이 잔차 등에 대한 가정을 완전히 위반하더라도 그는 신경 쓰지 않는다고 설명했다.

드러내다...

이 0/1 선형 회귀 모델 (읽기 쉬운 점수로 표준화 / 확장 및 적절한 컷오프와 쌍을 이루는 경우)은 데이터의 홀드 아웃 샘플에 대해 깨끗하게 검증되고 파산에 대한 양호 / 나쁜 차별 자로 매우 잘 수행되었습니다.

이 모델은 FICO의 위험 점수 (60 일 이상의 신용 연체를 예측하도록 설계됨)와 함께 파산을 방지하기 위해 2 년 동안 2 차 신용 점수로 사용되었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.