모델이 데이터에 적합하거나 데이터에 적합합니까?


20

모델에 데이터를 피팅하는 것과 데이터에 모델을 피팅하는 것 사이에 개념적 또는 절차상의 차이가 있습니까? 제 표현의 예에서 알 수 https://courses.washington.edu/matlab1/ModelFitting.html 하고, 두 번째의 https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .


7
+1 두 번째 링크에 감명받지 못했지만 재미있었습니다.
Laconic

많은 모델이 현재 데이터에 적합하지만 데이터는 일반적으로 가장 적합한 하나의 모델에 적합 합니다.
Agnius Vasiliauskas

답변:


35

내가 연결 한 Wolfram 소스를 제외하고 내가 상호 작용 한 거의 모든 소스 나 사람 은 프로세스를 모델에 데이터에 맞추는 것으로 언급한다 . 모델은 동적 객체이고 데이터는 정적 (일명 고정 및 상수)이기 때문에 이치에 맞습니다.

그것을 강조하기 위해 Larry Wasserman의 접근 방식이 마음에 듭니다. 그의 말에 따르면 통계 모델 은 분포의 모음입니다. 예를 들어 모든 정규 분포의 모음은 다음과 같습니다.

{Normal(μ,σ):μ,σR,σ>0}

또는 모든 포아송 분포 세트 :

{Poisson(λ):λR,λ>0}

분포를 데이터에 피팅하는 것은 통계 모델과 일련의 데이터 (데이터가 고정됨)를 결합하는 알고리즘이며 데이터에서 "가장 잘"반영된 모델로 분포에서 정확히 하나를 선택합니다.

모델은 변화하는 것입니다 (일종) : 우리는 전체 가능성 모음에서 단일 최선의 선택으로 모델을 축소하고 있습니다. 데이터는 단지 데이터입니다. 전혀 아무 일도 일어나지 않습니다.


16

Rasch 모델링 분야에서는 데이터를 모델에 맞추는 것이 일반적입니다. 모델이 올바른 것으로 가정하고이를 따르는 데이터를 찾는 것은 분석가의 작업입니다. Rasch 의 Wikipedia 기사 에는 방법과 이유에 대한 자세한 내용이 포함되어 있습니다.

그러나 다른 사람들은 일반적으로 통계에서 모델을 변경할 수 있기 때문에 모델에 데이터를 맞추는 데 동의하지만 데이터를 선택하거나 수정하는 것은 나쁜 형식이라고 생각합니다.


7

일반적으로 관측 된 데이터는 모형을 변경할 수있는 동안 고정되며 (예 : 모수를 추정하기 때문에) 다른 방식이 아닌 데이터에 적합하도록 만들어진 모형입니다 . (보통 사람들은 두 표현 중 하나를 말할 때이 경우를 의미합니다.)

사람들이 데이터를 모델에 적합하다고 말하면 데이터에 대한 도대체 무슨 일을 하려고 했는지 스스로 알 수 있습니까? .

[이제 당신이 데이터를 변환 하고 있다면 그것은 아마도 '모델에 데이터를 맞추는 것'일 것입니다. 그러나 사람들은이 경우에 대해 그런 말을 거의하지 않습니다.]


5
특이 치를 제거하는 것은 아마도 "모델에 데이터를 적합시키는"것입니다.
Federico Poloni

1
문구가 "피팅 (데이터를 모델에 적합)"이라고 생각하면 말이됩니다. 즉, 피팅 프로세스를 수행하고 있으며 피팅 프로세스는 데이터에서 시작하여 데이터를 모델로 변환합니다. 나는 그것이 "(X에 Y를 맞추는 것") 파싱에 비해 덜 일반적이고 정확한 해석이지만, 누군가 논리적으로 왜 그것을 말할 수 있는지에 대한 이론적 근거를 제시했다.
RM

1
@FedericoPoloni 특이 치는 일반적으로 나중에 사용하려는 모델과 무관하게 정의됩니다. 따라서 데이터를 피팅 데이터라고 부르더라도 모델이 아니라 다른 것입니다.
BartoszKP

1
+1. 그것이 "데이터"라고 불리는 이유가 있습니다. 그것은 주어진 것 입니다. 단어의 라틴어 기원을 참조하십시오 : latindictionary.wikidot.com/verb:dare
Christoph Hanck

2

일반적으로 우리는 데이터가 "실제 세계"에 해당한다고 가정하고 수정하면 "실제 세계"모델링에서 멀어지게됩니다. 예를 들어, 계산이 더 훌륭 해지더라도 특이 치는 여전히 데이터의 일부이므로 특이 치를 제거 하는 데주의를 기울여야 합니다.

부트 스트랩 또는 기타 리샘플링 기술을 사용하여 모델을 테스트하거나 추정기의 속성을 추정 할 때 추정 모델과 원래 데이터를 사용하여 새 데이터시뮬레이션 할 수 있습니다 . 이는 모델이 올 바르고 원래 데이터를 수정하지 않는다고 가정합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.