데이터 평균화와 데이터 피팅 및 피팅, 평균화의 차이점


10

여러 개별 "실험"에 라인을 맞추는 것 사이에 적합을 평균화하거나 별도의 실험에서 데이터를 평균화 한 다음 평균 데이터를 피팅합니다. 좀 더 자세히 설명하겠습니다 :

아래 그림과 같이 곡선을 생성하는 컴퓨터 시뮬레이션을 수행합니다. 수량을 추출하고 플롯의 선형 영역 (장시간)을 피팅하여 "A"라고합니다. 값은 단순히 선형 영역의 기울기입니다. 물론이 선형 회귀와 관련된 오류가 있습니다.

우리는 일반적으로 "A"의 평균값을 계산하기 위해 서로 다른 초기 조건으로 이러한 시뮬레이션을 100 회 정도 실행합니다. 나는 원시 데이터 (아래 그림의)를 10의 그룹으로 평균화 한 다음 "A"에 적합하고 10 "A"의 평균을 합치는 것이 더 좋다고 들었습니다.

그에 대한 가치가 있는지 또는 100 개의 개별 "A"값을 맞추고 평균을 얻는 것보다 낫다는 직관은 없습니다.

데이터


잘 모르겠습니다. 다른 시점에서 A를 측정 한 다음 를 추정 합니까? 그런 다음이 작업을 여러 번 수행하면 모든 의 평균을 가져 ? β 1A=β0+β1tβ1

죄송합니다 위의 도표는 단일 시뮬레이션의 결과입니다 (실험이라고합시다). 초기 비선형 영역은 버리고 선형 부분에 선을 맞추고 경사 "A"를 얻습니다. 따라서 하나의 전체 시뮬레이션은 단일 "A"추정값을 산출합니다. 물론 내 질문은 많은 플롯을 평균화 한 다음 A를 계산하는 것이 단지 많은 플롯에 대해 A를 계산하여 평균화하는 것과 다른지 여부와 관련이 있습니다. 그것이 분명해 지길 바랍니다.
pragmatist1

1
이것이 왜 차이가 나는지 모르겠습니까? (선형 회귀에 대한 가정이 충족되는 경우)

나는 각각의 실험이 작기 때문에 피팅이 잘못되지 않고 엄청나게 가파른 추정치를 수렴하지 않습니다. 그것은 첫 번째 (또는 계층 적 모델) 결합이 도움이 될 수 있습니다.
Björn

1
모든 데이터를 함께 맞출 수도 있지만 선형 혼합 모델 방식과 같은 실험 (각 실험마다 다른 절편 또는 다른 기울기)을 구분하기 위해 일종의 구성 요소를 포함 할 수 있습니다. 이렇게하면 전체 기울기를 근사 할 수 있지만 실험 간의 "일괄 처리"효과 또는 차이점을 식별 할 수 있습니다.
bdeonovic

답변:


2

시간 와 회사 차이가있는 패널 데이터 컨텍스트에 있다고 상상해보십시오 . 각 기간 를 별도의 실험으로 생각하십시오 . 귀하의 질문은 다음을 사용하여 효과를 추정하는 것이 동등한 지 이해합니다.I t를tit

  • 시계열 평균의 단면 변동.
  • 횡단면 변동의 시계열 평균입니다.

대답은 일반적으로 아니요입니다.

설정:

내 공식에서 우리는 각 기간 를 별도의 실험으로 생각할 수 있습니다 .t

회사에 걸쳐 길이 의 균형 잡힌 패널이 있다고 가정 해 봅시다 . 우리가 각 기간을 등으로 전체 데이터를 다음과 같이 쓸 수 있습니다.N ( X의 t , Y t )Tn(Xt,yt)

Y=[y1y2yn]X=[X1X2Xn]

맞는 평균 :

1Ttbt=1Tt(XtXt)1Xtyt=1TtSt1(1nixt,iyt,i)where St=1nixt,ixt,i

평균의 적합 :

이는 일반적으로 시계열 평균의 횡단면 변동 (예 : 추정기 간)을 기반으로 한 추정치와 같지 않습니다.

(1nix¯ix¯i)11nix¯iy¯i

여기서 등 ...x¯i=1Ttxt,i

풀링 된 OLS 추정치 :

아마도 생각하기에 유용한 것이 풀링 된 OLS 추정치입니다. 무엇입니까? 그런 다음Bt=(X'tXt)-1X'tY

b^=(XX)1XY=(1nTtXtXt)1(1nTtXtyi)
bt=(XtXt)1Xtyi
=(1nTtXtXt)1(1nTtXtXtbt)

하자 및 의 추정치가 될 전체 샘플에 대해 그리고 기간 각각 . 그리고 우리는 :S=1nTiXXSt=1nXtXtE[xx]t

b^=1Tt(S1St)bt

이것은 다른 시간별 추정치 의 평균과 비슷 하지만 약간 다릅니다. 다소 느슨한 의미에서 오른쪽 변수의 분산이 높은 기간에 더 많은 가중치를 부여합니다.bt

특수한 경우 : 오른쪽 변수는 시간이 변하지 않고 확고합니다.

각 기업의 오른쪽 변수 만약 있는 시간에 걸쳐 일정하게 (즉, 어떤을위한 및 )를 모든 우리가 할 것이다 :iXt1=Xt2t1t2S=Stt

b^=1Ttbt

재미있는 의견 :

이 경우가 파마와 맥베스 그들이 어디에 기대 수익률은 시장 (또는 다른 요인 부하량)와 기업의 공분산에 따라 변화하는 방법을 추정 할 때 일관성있는 표준 오차를 얻기 위해 단면 추정치를 평균의이 기술을 적용 할 때이다.

Fama-Macbeth 절차는 오류 용어가 단면적으로 상관되어 있지만 시간에 따라 독립적 일 때 패널 컨텍스트에서 일관된 표준 오류를 얻는 직관적 인 방법입니다. 비슷한 결과를 산출하는보다 현대적인 기술은 정시에 클러스터링하는 것입니다.


1

(참고 : 의견을 말할만큼 평판이 충분하지 않으므로 이것을 답변으로 게시하고 있습니다.)

제기 된 특정 질문에 대해 fcop 의 대답 은 정확합니다. 평균을 피팅하는 것은 피팅을 평균화하는 것과 같습니다 (적어도 선형 최소 제곱의 경우). 그러나 이러한 순진한 " 온라인 "접근 방식 중 하나는 모든 데이터를 한 번에 맞추는 것과 비교하여 편향된 결과를 제공 할 수 있습니다. 이 둘이 동일하므로 "평균에 맞추기"접근 방식에 중점을 둘 것입니다. 기본적으로 평균 곡선 서로 다른 포인트 사이의 값 에 대한 상대적인 불확실성이 무시 됩니다. 예를 들어 , 및 인 경우Y, X, Y1[X1]=Y2[X1]=2, Y1[X2]=1, Y1[X2]=3 ˉ Y [X1]= ˉ y [x2]=2xy¯[x]=y[x]yxy1[x1]=y2[x1]=2y1[x2]=1y1[x2]=3y¯[x1]=y¯[x2]=2 이지만, 모든 곡선 맞춤은 와 비교하여 부정합에 대해 훨씬 더주의를 기울여야 합니다.x 2x1x2

대부분의 과학 소프트웨어 플랫폼에는 실제 "온라인"최소 제곱 적합 ( 재귀 최소 제곱 이라고도 함)을 계산 / 업데이트 할 수있는 도구가 있어야합니다 . 따라서 모든 데이터를 사용할 수 있습니다 (필요한 경우).


1
fcop에 의해 게시 된 답변이 삭제되었습니다. 답변을 약간 수정하고 싶을 수도 있습니다
Glen_b -Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.