회귀 모델에서 오류를 개념화하는 방법은 무엇입니까?


11

데이터 분석 수업에 참석하고 있으며 뿌리 깊은 아이디어가 흔들리고 있습니다. 즉, 오차 (엡실론)와 다른 종류의 분산은 그룹 (표본 또는 전체 모집단)에만 적용됩니다. 이제, 회귀 가정 중 하나는 분산이 "모든 개인에게 동일"하다는 것입니다. 이것은 어떻게 든 나에게 충격이다. 나는 항상 일정한 것으로 가정 된 모든 X 값에 대한 Y의 편차라고 생각했습니다.

나는 회귀를 할 때 모델이 사실이라고 가정하는 교수와 대화를 나 chat습니다. 그리고 나는 그것이 까다로운 부분이라고 생각합니다. 저에게 오류 용어 (epsilon)는 항상 "알지 못하는 요소와 결과 변수에 영향을 줄 수있는 요소, 측정 오류"등을 의미했습니다. 수업이 진행되는 방식에는 "다른 것들"과 같은 것은 없습니다. 우리의 모델은 진실하고 완전하다고 가정합니다. 이는 모든 잔차 변동이 측정 오차의 곱으로 간주되어야한다는 것을 의미합니다 (따라서 개인을 20 번 측정하면 20 명의 개인을 한 번 측정하는 것과 동일한 분산이 생성 될 것으로 예상됩니다).

어딘가에 문제가 있다고 생각합니다. 이것에 대해 전문가 의견을 갖고 싶습니다 ... 개념적으로 말하면 오류 용어가 무엇인지에 대한 해석의 여지가 있습니까?


3
아마도 그가 의미 한 바는, 모델이 참이더라도 응답에 여전히 임의의 변동이 있다는 것입니다. 이것은 오류 분산에 의해 포착됩니다. 예를 들어, 불완전한 측정 장치 때문일 수 있습니다. 다른 사람들은 때때로 오류 예측을 누락 된 예측 변수 (모델 형식의 오류 일 필요는 없음)로 개념화하여 가능한 모든 예측 변수가 측정되면 오류 분산이 0이된다는 것을 암시합니다. 이는 첫 번째 오류와 일치하지 않습니다. 측정에서 "결측 예측 변수"로 생각할 수 있습니다.
매크로

처음에는 항상 파악하기 어려운 한 가지는 "오류"가이 경우 다른 의미를 가질 수 있다고 생각합니다. "오류"는 모델에서 얻은 적합치와 관측 값의 차이를 나타낼 수 있습니다 (예 : 불일치는 예를 들어 상당히 조화로운 모델 일 수 있습니다). "오류"는 관찰 된 값과 실제 값의 차이를 의미 할 수도 있습니다 (예를 들어, 값을 측정하는 데 사용하는 장치가 가장 가까운 정수 / 10 진수 등으로 반올림 할 수 있음). [첫 번째 유형은 "잔여 / 잔여 분산"과 같은 용어를들을 수있는 곳입니다.]

@ 매크로 네, 이것은 자연스럽게 오류를 생각하는 것처럼 보입니다. 그러나 나는 왜 교수가 왜 더 엄격한 정의를 주장했는지 이해하려고 노력하고 있습니다 (실제로 알고 있지만 각 개인에게 적용 가능한 것으로 생각하면 사실이 아닙니다).
Dominic Comtois

@MikeWierzbicki 맞습니다. 그리고 내가 올바르게 이해한다면, 이것은 "엄격한"관점에서 모두 함께 모입니다. 우리의 모델이 "참"이어야하기 때문에 관찰 된 값과 예측 된 값 사이의 모든 차이는 측정 오차에서 비롯된 것입니다.
Dominic Comtois

답변:


2

결과 y 값에 영향을 미치는 개인의 측면이있는 경우 해당 측면을 얻는 방법이 있거나 (이 경우 예측 변수 x의 일부 여야 함) 어떤 방법도 얻을 수있는 방법이 없습니다 정보.

이 정보를 얻을 수있는 방법이없고 개인의 y 값을 반복적으로 측정 할 수있는 방법이 없다면 실제로 중요하지 않습니다. y를 반복적으로 측정 할 수 있고 데이터 세트에 실제로 일부 개인에 대한 반복 측정이 포함 된 경우 통계 이론은 측정 오류 / 잔여의 독립성을 가정하기 때문에 잠재적 인 문제가 있습니다.

예를 들어 양식의 모델을 맞추려고한다고 가정합니다.

y=β0+β1x ,

각 개인마다

yind=100+10x+z ,

여기서 z는 개인에 따라 다르며 일반적으로 평균 0과 표준 편차 10으로 분포됩니다. 개인의 반복 측정마다

ymeas=100+10x+z+e ,

여기서 는 일반적으로 평균 0과 표준 편차 0.1로 분포됩니다. e

이것을 다음과 같이 모델링 할 수 있습니다

y=β0+β1x+ϵ ,

여기서 은 보통 평균 0과 표준 편차로 분포됩니다.ϵ

σ=102+0.12=100.01 .

각 개인에 대해 하나의 측정 값 만있는 한 괜찮습니다. 그러나 동일한 개인에 대해 여러 측정 값이 있으면 잔차가 더 이상 독립적이지 않습니다!

예를 들어, z = 15 (1.5 표준 편차가 있으므로 불합리하지 않음) 인 개인이 한 개인이고 그 개인에 대해 100 회 반복 측정 된 경우 및 (정확한 값)을 사용합니다. 약 +1.5 표준 편차의 100 잔차로 끝날 것입니다. 이는 통계에 영향을줍니다 . β0=100β1=10χ2


나는 내 대답에 "다단계 모델링"이라는 무서운 용어를 사용하지 않으려 고 노력했지만 어떤 경우에는 이런 종류의 상황을 처리하는 방법을 제공한다는 것을 알고 있어야합니다.
Brian Borchers

1

"오류"는 "현재 정보를 감안할 때 예측할 수없는 관측치의 일부"로 가장 잘 설명됩니다. 모집단 대 표본의 관점에서 생각하려고 시도하면 오류가 일부 분포에서 "순전히 무작위"인 것으로 생각하는 것처럼 개념적 문제가 발생합니다 (어쨌든 저에게는 잘됩니다). 예측과 "예측 가능성"의 관점에서 생각하는 것이 훨씬 더 의미가 있습니다.

또한 최대 엔트로피 원리는 정규 분포가 사용되는 이유를 이해하는 깔끔한 방법을 제공한다고 생각합니다. 모델링 할 때 알려진 오류를 설명하기 위해 오류에 분포를 할당 합니다. 모든 공동 분포 는 상상할 수있는 지식 상태를 나타낼 수 있습니다. 그러나 와 같은 일부 구조를 지정 하면이 제약 조건의 가장 균일 한 분포가 적용됩니다 평균이 일정하고 분산이 일정한 정규 분포입니다.E ( 1p(e1,,en)σ2σE(1ni=1nei2)=σ2σ2. 이것은 "독립성"과 "일정한 분산"이이 제약 조건 하에서 달리 가정하는 것보다 실제로 더 안전하다는 것을 보여줍니다. 즉 평균 두 번째 모멘트가 존재하고 유한하며 오류의 일반적인 크기는 일 것으로 예상합니다 .σ

따라서 이것을 생각하는 한 가지 방법은 우리의 가정이 반드시 "정확한"것이 아니라 문제에 많은 정보를 주입하지 않는다는 의미에서 "안전"하다고 생각하는 것입니다 (우리는 하나의 구조적 제약을 부과하고 있습니다) 치수). 따라서 우리는 안전한 지역에서 시작하고 있으며 특정 사례 및 데이터 세트에 대한 특정 정보에 따라 여기에서 구축 할 수 있습니다.n


"이 균일 한 분포의 가장 균일 한 분포는 평균이없고 평균 분산이 정규 분포입니다"에서 '균일 한'이란 무엇입니까 ? σ2
매크로

평균 I 즉 균일 한 분포. p(e1,,en)1
확률

그리고 가까운 전 평균 KL 발산에 의해 최소화
probabilityislogic

딜레마는 표본과 인구 사이에 있지 않습니다. 표본 / 인구 대 개인에 적용 가능한 오류를 생각하는 것입니다.
Dominic Comtois


1

나는 교수의 공식화에 동의하지 않는다. 당신이 말했듯이, 분산이 각 개인마다 동일하다는 생각은 오차 항이 측정 오차만을 나타냅니다. 이것은 일반적으로 기본 다중 회귀 모델이 구성되는 방식이 아닙니다. 또한 말한 것처럼 그룹에 대해 분산이 정의됩니다 (개별 주제 그룹이든 측정 그룹이든 상관 없음). 측정을 반복하지 않으면 개별 수준에서 적용되지 않습니다.

오차항에 예측 변수와 관련된 변수의 영향이 포함되지 않아야한다는 점에서 모형을 완성해야합니다. 오류 항은 예측 변수와 독립적이라는 가정이 있습니다. 상관 된 변수가 생략되면 바이어스 계수가 나타납니다 (이를 생략 변수 바이어스 라고 함 ).


나는이 대답을 잘 이해하지 못합니다. 적합 부족과 임의 오차로 인한 오차의 차이를 인식하는 것처럼 보이지만 마지막 수사 학적 질문은 혼란스러워 보입니다. 순수한 공식적인 관점에서 볼 때 본질적으로 회귀 모델과 관련된 모든 추론은 노이즈 구조에 대한 매우 명백한 가정에 달려 있습니다.
추기경

1
필자의 요점은 많은 경우에 회귀 모델링의 목적은 특정 결과의 모든 원인을 모를 때에도 무슨 일이 일어나고 있는지 파악하는 것입니다. 그러나 분명하지 않은 것처럼, 나는 그 질문을 제거 할 것입니다.
Anne Z.

감사. 귀하의 의견의 요점은 좋습니다. 앞에서 언급 한 질문은 회귀 이론의 기초가되는 전체 질문에 대한 내용으로 읽을 수 있습니다. :)
추기경

귀하의 의견에 동의하지 않기 때문에 (따라서 제 질문입니다!) 생략 된 변수 바이어스는 문제와 관련이 있습니다. 감사.
Dominic Comtois 2012
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.