선형 모형을 피팅 한 후 피팅 잔차를 바이어스 및 분산으로 분해 할 수 있습니까?


9

데이터 포인트를 더 복잡한 모델이 필요하거나 더 복잡한 모델이 필요하지 않은 것으로 분류하고 싶습니다. 내 현재 생각은 모든 데이터를 간단한 선형 모델에 맞추고 잔차의 크기를 관찰 하여이 분류를 만드는 것입니다. 그런 다음 오차에 대한 편차 및 분산 기여에 대해 몇 가지를 읽었으며 바이어스를 직접 계산할 수 있으면 총 오차 (잔여 또는 표준화 된 잔차)를 사용하는 것이 더 나은 방법 일 수 있음을 깨달았습니다.

선형 모델로 직접 바이어스를 추정 할 수 있습니까? 테스트 데이터 유무에 관계없이? 교차 검증이 여기에 도움이됩니까?

그렇지 않다면, 선형 모델의 평균 부트 스트랩 앙상블을 사용하여 바이어스를 근사 할 수 있습니까?


1
분산이 일정하기 때문에 이것들은 (잔류 대 편향) 동등할까요?
kmace

1
게시물의 첫 번째 진술로 의미가 무엇인지 명확하게 설명해 주시겠습니까? "데이터 포인트"(개별 관찰?)를 "더 복잡한 것이 필요하거나 더 복잡한 모델이 필요하지 않은"것으로 분류하고자합니다. 이것이 정확히 무엇을 의미하는지 (이상치 감지 또는 다른 적합도 유형 문제처럼 들리지만) 이것이 편견 추정에 대한 후자의 질문과 어떻게 관련되는지는 명확하지 않습니다.
Ryan Simmons

의미하는 것은 다른 목표 함수 를 가진 샘플의 하위 집합이 있다는 것 입니다. 따라서 대부분의 샘플에서 실제 목표 함수는 다음과 같습니다. 이고 소수의 샘플에서 목표 함수는 입니다. 모형에서 교호 작용 항을 허용하지 않으면 (가설 세트에 포함되지 않음) 모든 데이터를 적합해야하며 오류가 큰 표본의 목표 함수는f(x)f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2f2
kmace

2
Ryan이 이미 지적했듯이 질문은 명확하게 언급되지 않았습니다. 귀하의 의견은 "적합성"의 방향을 가리 킵니다. 그러나 이것을 뒤집는 것은 불가능합니다. 사전 개념을 염두에두고있는 것 같습니다. 모델과 일부 데이터를 결합하고 모델 매개 변수를 결정하면 많은 것을 계산할 수 있습니다. 그러나 항상 통계적으로 제한된 데이터 세트로 시작한다는 것을 감안할 때 더 세게 또는 더 많은 삽으로 파낼 수 있다는 사실은 없습니다. 당신이 적용하는 방법이 진실을 산출하지는 않지만, 당신이 얼마나 잘못 될 수 있는지를 나타낼 수 있습니다.
cherub

답변:


12

일반적으로 오차 (잔류 물)를 치우침 및 분산 성분으로 분해 할 수 없습니다. 간단한 이유는 일반적으로 실제 기능을 모르기 때문입니다. 리콜이 그리고 당신이 평가하고자하는 알 수없는 일이다.bias(f^(x))=E[f^(x)f(x)],f(x)

부트 스트랩은 어떻습니까? 부트 스트래핑으로 추정기의 편향을 추정 할 수는 있지만 모델을 포장하는 것은 아닙니다. 부트 스트랩이 여전히 있기 때문에 부트 스트랩 을 사용하여 의 편향을 평가하는 방법이 있다고 생각하지 않습니다. 진실에 대한 어떤 개념에 기초하고 있으며, 그 이름의 기원에도 불구하고 아무것도 아무것도 만들 수 없습니다.f^(x),

명확히하기 위해 추정기 의 바이어스의 부트 스트랩 추정치 는 θ^

bias^B=θ^()θ^,

함께 에서 계산하여 통계량의 평균값 인 부트 스트랩 샘플 . 이 프로세스는 일부 모집단의 샘플링 프로세스와 관심 수량 계산 프로세스를 에뮬레이트합니다. 이것은 를 원칙적으로 모집단에서 직접 계산할 수있는 경우에만 작동합니다 . 바이어스의 부트 스트랩 추정은 플러그인 추정 (즉, 모집단이 아닌 샘플에서 동일한 계산을 수행하는 것)이 바이어스되는지 여부를 평가합니다.θ^()B θ^

모형 적합을 평가하기 위해 잔차를 사용하려는 경우에는 가능합니다. 주석에서 말한 것처럼 중첩 된 모델 및 를 비교하려는 경우 분산 분석을 수행하여 더 큰 모델의 합을 크게 줄일 수 있는지 확인할 수 있습니다 제곱 오류.f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2


8

분해 추정값을 얻을 수있는 상황 중 하나는 점을 복제 한 경우입니다 (예 : 다양한 예측 변수 조합에 대해 둘 이상의 반응을 보임).

이것은 대부분 독립 변수 (예 : 실험에서)를 제어하거나 변수가 모두 이산 인 경우 (x 조합이 너무 많지 않고 x- 값 조합으로 충분히 큰 표본을 추출 할 수있는 경우)로 제한됩니다. 여러 포인트를 얻습니다).

복제 된 점은 조건부 평균을 추정하는 모델이없는 방법을 제공합니다. 이러한 상황에서 잔차 제곱합을 순수한 오차와 적합 부족 으로 분해 할 가능성이 있지만 x 값의 각 조합에서 편향에 대한 직접 (시끄럽지 만 잡음이 많은) 추정값이 여러 번있는 경우도 있습니다.


나는 이것이 효과가 없을 것이라고 생각한다. 모델에서 중요한 설명 변수를 생략 한 경우를 고려하십시오. 이 설명 변수가 다른 모든 설명 변수와 직교하는 경우 다른 답변에서 제안 된이 방법이나 다른 방법으로 그 효과를 찾을 수 없다고 생각합니다.
Cagdas Ozgenc

2
@Cagdas 모든 상황에서 작동하지는 않습니다. 그것은 누락 된 예측 변수가 아닌, 불특정 화 된 모델 형태로부터의 편견을 감지합니다
Glen_b-복지국 Monica

1

다소 복잡한 칼만 필터링 영역에서 때때로 사람들은 잔차 (측정 된 측정 값에서 예측 된 측정 값을 뺀 값)를 테스트하여 모델 변경 또는 결함 조건을 찾습니다. 이론적으로 모형이 완벽하고 잡음이 가우시안 인 경우 잔차도 평균이 0 인 가우시안이어야하고 예측 된 공분산 행렬과도 일치해야합니다. SPRT (Sequential Probability Ratio Test)와 같은 순차 테스트를 통해 0이 아닌 평균을 테스트 할 수 있습니다. 꾸준한 새 데이터 스트림이 아닌 고정 된 데이터 배치가 있기 때문에 상황이 다릅니다. 그러나 잔차의 표본 분포를 보는 기본 개념이 여전히 적용될 수 있습니다.

모델링하는 프로세스가 때때로 변경 될 수 있음을 나타냅니다. 그런 다음 보유한 데이터로 더 많은 것을 수행하려면 해당 변경을 야기하는 다른 요인을 식별해야합니다. 두 가지 가능성을 고려하십시오. (1) 하나의 전역 모델이 아닌 로컬 모델이 필요할 수 있습니다. 예를 들어 일부 운영 지역에만 심각한 비선형 성이 있거나 (2) 시간이 지남에 따라 프로세스가 변경 될 수 있습니다.

이것이 실제 시스템이고 샘플이 시간 간격을 크게 벗어나지 않으면 이러한 프로세스 변경이 상당한 시간 동안 지속될 수 있습니다. 즉, 실제 모델 매개 변수가 때때로 변경되어 일정 기간 동안 지속될 수 있습니다. 데이터에 타임 스탬프가 있으면 시간이 지남에 따라 잔차를 볼 수 있습니다. 예를 들어, 모든 데이터를 사용하여 y = Ax + b를 맞추고 A와 b를 찾는다고 가정합니다. 그런 다음 돌아가서 잔차 시퀀스 r [k] = y [k]-Ax [k]-b를 테스트합니다. 여기서 k는 시간 순서대로 시간에 해당하는 인덱스입니다. || r [k] ||와 같은 요약 통계가있는 기간과 같이 시간이 지남에 따라 패턴을 찾으십시오. 한동안 평상시보다 높게 유지됩니다. 순차적 테스트는 SPRT 또는 개별 벡터 인덱스에 대한 CUSUM과 같은 지속적인 바이어스 종류의 오류를 감지하는 데 가장 민감합니다.


1

치우침과 분산은 추정에 사용 된 데이터가 아니라 모델 매개 변수의 속성이므로 답은 아니오 입니다. 예측 변수 공간을 통한 편차 및 분산 변화 (ha!)와 관련된 해당 설명에는 부분적인 예외가 있습니다. 아래에 더 자세히 설명되어 있습니다. 이는 예측 변수 및 반응 변수와 관련된 일부 "참"기능을 아는 것과는 전혀 관련이 없습니다.

의 추정치 고려 선형 회귀에 , 인 예측 자 행렬 A는 파라미터 추정 벡터 및 인 의 응답 벡터. 우리가 그릴 데이터의 무한한 모집단이 있다고 주장하기 위해 논쟁을 가정합시다 (이것은 완전히 우스운 것은 아닙니다. 어떻게 물리적 프로세스의 데이터를 적극적으로 기록하는 경우 예측 자와 응답 데이터를 빠른 속도로 기록 할 수 있습니다) 따라서이 가정을 실질적으로 만족시킨다). 따라서 우리는 각각 단일 반응 값과 각각에 대한 값으로 구성된 관측 값을 그립니다 .ββ^=(XTX)1XTYXN×Pβ^P×1YN×1NP 예측 변수. 그런 다음 의 추정치를 계산하고 값을 기록합니다. 그런 다음이 전체 과정 을 취하여 번 반복합니다 . 매번 독립적으로 모집단에서 뽑습니다. 모수 벡터에서 각 요소의 분산을 계산할 수있는 의 추정치를 누적 합니다. 이러한 모수 추정값의 분산은 예측 변수의 직교성을 가정 하여 반비례 하고 비례합니다 .β^NiterNNiterβ^NP

각 매개 변수의 바이어스는 비슷하게 추정 할 수 있습니다. "true"함수에 액세스 할 수 없지만 를 계산하기 위해 모집단에서 임의로 많은 수의 추첨을 할 수 있다고 가정 합니다. 이는 "true"매개 변수 값의 프록시 역할을합니다 . 이 값은 편차가없는 추정치 (보통 최소 제곱)이며 사용 된 관측치 수가 충분히 커서이 추정치의 분산이 무시할 수 있다고 가정합니다. 각 매개 변수에 대해 . 여기서 범위는 ~ 입니다. 이러한 차이의 평균을 해당 매개 변수의 바이어스 추정값으로 사용합니다.β^bestPβ^bestjβ^jj1Niter

편향과 분산을 데이터 자체와 관련시키는 해당 방법이 있지만 조금 더 복잡합니다. 보시다시피 선형 모델의 경우 바이어스 및 분산을 추정 할 수 있지만 상당히 많은 홀드 아웃 데이터가 필요합니다. 더 교활한 문제는 고정 데이터 세트로 작업을 시작하면 분석 결과가 개인 분산에 의해 오염되어 이미 경로 경로를 통해 방황하기 시작했으며 그 방법을 알 수있는 방법이 없다는 것입니다 샘플 외부를 복제 할 수 있습니다 (단일 모델을 만들어이 분석을 실행하고 그 이후에 그대로 두지 않는 한).

데이터 포인트 자체의 문제와 관련하여 가장 정확한 (그리고 사소한) 대답은 와 사이에 차이가 있다면YY^더 복잡한 모델이 필요합니다 (모든 관련 예측 변수를 올바르게 식별 할 수 있다고 가정 할 수는 없다). "오류"의 철학적 본질에 대한 지루한 논문으로 들어 가지 않으면 서, 결론은 모델이 그 마크를 놓칠 수있는 무언가가 진행되고 있다는 것입니다. 문제는 복잡성을 추가하면 분산이 증가하여 다른 데이터 포인트의 마크를 놓칠 수 있다는 것입니다. 따라서 개별 데이터 포인트 수준의 오류 속성에 대한 걱정은 유익한 노력이 아닐 수 있습니다. 첫 번째 단락에서 언급 한 예외는 바이어스와 분산이 실제로 예측 변수 자체의 함수이므로 예측 공간의 한 부분에는 큰 편향이 있고 다른 영역에는 작은 편향이있을 수 있습니다 (변동과 동일).YY^여러 번 (여기서 및 기준으로 추정되지 않음 ) 값의 함수로 바이어스 (평균) 및 분산을 플로팅합니다 . 그러나 저는 이것이 매우 전문적인 문제라고 생각합니다.Y^=Xβ^β^ YX

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.