선형 회귀 분석에서 반응 변수는 연속적이어야하지만 왜 그렇게됩니까? 응답 변수에 불연속 데이터를 사용할 수없는 이유를 설명하는 온라인 내용을 찾을 수 없습니다.
선형 회귀 분석에서 반응 변수는 연속적이어야하지만 왜 그렇게됩니까? 응답 변수에 불연속 데이터를 사용할 수없는 이유를 설명하는 온라인 내용을 찾을 수 없습니다.
답변:
원하는 두 개의 열에서 선형 회귀를 사용하는 것을 막을 것은 없습니다. 꽤 합리적인 선택 일 수도 있습니다.
그러나, 당신이 얻는 것의 속성이 반드시 유용하지는 않을 것입니다 (예를 들어 당신이 원하는 것이 아닐 수도 있습니다).
일반적으로 회귀에서는 Y의 조건부 평균과 예측 변수 사이의 관계를 조정하려고합니다. 즉, 어떤 형태의 형식의 관계에 적합합니다 . 논란의 여지없이 조건부 기대의 행동을 모델링하는 것은 '회귀' 입니다 . [선형 회귀는 대해 하나의 특정 형태를 취할 때입니다 ]g
예를 들어 분포가 0 또는 1에 있고 일부 예측 변수 ( ) 가 변경 될 때 변할 확률로 값 1을 취하는 응답 변수 인 극단적 인 불연속 사례를 고려하십시오 . 즉 입니다.E ( Y | x ) = P ( Y = 1 | X = x )
선형 회귀 모델과의 관계를 맞추면 좁은 간격을 제외하고는 거나 보다 큰 값을 예측할 수 있습니다 .0 1
실제로 기대치가 경계에 접근함에 따라 값이 점점 더 자주 그 경계의 값을 가져와야하므로 기대치가 중간에 가까울 때보 다 분산이 작아짐-분산이 0으로 감소해야 함을 알 수도 있습니다 따라서 일반적인 회귀는 가중치가 잘못되어 조건부 기대치가 0 또는 1에 가까운 지역의 데이터에 가중치를 줄입니다 .a와 b 사이에 경계가있는 변수가있는 경우 SImilar 효과가 발생합니다 (예 : 각 관측 값이 이산 카운트) 해당 관측치에 대해 알려진 총 가능한 수 중에서)
또한 우리는 일반적으로 조건부 평균이 상한 및 하한으로 점근 할 것으로 예상합니다. 즉, 관계가 일반적으로 직선이 아닌 곡선 형이므로 선형 회귀가 데이터 범위 내에서 잘못 될 가능성이 있습니다.
한쪽 경계에만있는 데이터 (예 : 상한이없는 카운트)에 대해서도 비슷한 문제가 발생합니다.
그것은의 수 (드문 경우) 중 하나 끝에 묶여 아니에요 개별 데이터를합니다; 변수가 많은 다른 값을 취하는 경우, 모델의 평균과 분산에 대한 설명이 합리적이라면 불연속성은 상대적으로 거의 영향을 미치지 않습니다.
다음은 선형 회귀를 사용하는 것이 완전히 합리적인 예입니다.
얇은 x- 값 스트립에서 관찰 될 가능성이있는 몇 가지 다른 y- 값만 있지만 (폭 1 간격의 경우 약 10) 기대치를 잘 예측할 수 있으며 표준 오류 및 p- 이 특별한 경우에 가치와 신뢰 구간은 어느 정도 합리적 일 것이다. 예측 간격은 다소 덜 작동하는 경향이 있습니다 (비정규 성이이 경우 더 직접적인 영향을 미치기 때문에)
-
가설 검정을 수행하거나 신뢰 또는 예측 구간을 계산하려는 경우 일반적인 절차는 정규성을 가정합니다. 어떤 상황에서는 문제가 될 수 있습니다. 그러나 특정 가정을하지 않고 추론 할 수 있습니다.
선형 회귀 분석에서 연속 반응이 필요한 이유는 우리가 만든 가정에서 비롯된 것입니다. 독립 변수 가 연속적이라면 와 의 선형 관계 는y
여기서 은 정상입니다. 그리고 우리가 가 연속적이라는 것을 알고있는 공식을 만드십시오.y
반면, 일반화 된 선형 모형 에서 반응 변수는 이산 형 / 범주 형 (로지스틱 회귀) 일 수 있습니다. 또는 카운트 (포아송 회귀).
mark999를 수정하고 주석을 다시 매핑하도록 편집하십시오.
선형 회귀는 사람들이 다르게 사용할 수있는 일반적인 용어입니다. 이산 변수에 사용하지 못하게하거나 독립 변수와 종속 변수가 선형이 아닙니다.
우리가 아무것도 가정하지 않고 선형 회귀를 실행하면 여전히 결과를 얻을 수 있습니다. 결과가 우리의 요구를 충족 시키면 전체 프로세스가 정상입니다. 그러나 Glan_b가 말했듯이
가설 검정을 수행하거나 신뢰 또는 예측 구간을 계산하려는 경우 일반적인 절차는 정규성을 가정합니다.
이 대답은 OP가 고전 회귀 분석을 할 때 일반적 으로이 가정이있는 고전 통계 책에서 선형 회귀를 요구한다고 가정하기 때문입니다.
이론적 관점에서 위의 답변은 정확합니다. 그러나 실제적인 측면에서 이는 모두 데이터 영역과 모델의 예측 능력에 달려 있습니다.
실제 사례 중 하나는 이전 MDS 파산 모델입니다. 이것은 대출 기관이 파산을 선언 할 가능성을 예측하기 위해 소비자 신용 대출 기관이 사용한 초기 위험 점수 중 하나입니다. 이 모델은 예측 기간 동안의 파산을 나타 내기 위해 차용자의 신용 보고서와 이진 0/1 플래그의 상세 데이터를 사용했습니다. 그런 다음 그 데이터를 ... .. 당신은 추측했다.
평범한 오래된 선형 회귀
한때이 모델을 만든 사람들 중 한 사람과 이야기 할 기회를 얻었습니다. 나는 가정 위반에 대해 그에게 물었다. 그는 그것이 잔차 등에 대한 가정을 완전히 위반하더라도 그는 신경 쓰지 않는다고 설명했다.
드러내다...
이 0/1 선형 회귀 모델 (읽기 쉬운 점수로 표준화 / 확장 및 적절한 컷오프와 쌍을 이루는 경우)은 데이터의 홀드 아웃 샘플에 대해 깨끗하게 검증되고 파산에 대한 양호 / 나쁜 차별 자로 매우 잘 수행되었습니다.
이 모델은 FICO의 위험 점수 (60 일 이상의 신용 연체를 예측하도록 설계됨)와 함께 파산을 방지하기 위해 2 년 동안 2 차 신용 점수로 사용되었습니다.