"포화"모델이란 무엇입니까?


답변:


36

포화 모델은 데이터 포인트만큼 많은 추정 매개 변수가있는 모델입니다. 정의에 따르면 이는 완벽하게 적합하지만 분산을 추정 할 데이터가 없으므로 통계적으로 거의 사용되지 않습니다.

예를 들어, 6 개의 데이터 점이 있고 5 차 다항식을 데이터에 적합하면 포화 모형 (독립 변수의 5 제곱에 대해 하나의 상수와 상수 항에 대해 하나의 파라미터)을 갖게됩니다.


17
모델에 10 개의 데이터 요소와 9 개의 매개 변수가있는 예를 보았습니다. 모델에 너무 많은 매개 변수가 있음을 지적하면서 R ^ 2는 0.999이므로 모델이 정확해야합니다!
csgillespie

4
내와 데이브의 게시물에서 읽을 수 있듯이 포화 모델은 정의에 따라 완벽하게 맞지 않습니다. 그러나 n-1 다항식을 모형으로 사용하면됩니다. 이 주제에 대한 Sue Doe Nihm의 주요 논문 psych.fullerton.edu/mbirnbaum/papers/Nihm_18_1976.pdf
Henrik

24

포화 모델은 기본적으로 데이터를 보간하는 지점까지 매개 변수가 초과 된 모델입니다. 이미지 압축 및 재구성과 같은 일부 설정에서는 이것이 반드시 나쁜 것은 아니지만 예측 모델을 작성하려는 경우 매우 문제가됩니다.

간단히 말하면 포화 모형은 실제 데이터보다 노이즈에 의해 밀려나는 매우 높은 분산 예측 변수로 이어집니다.

생각 실험으로 포화 모델이 있고 데이터에 노이즈가 있다고 가정 한 다음 매번 노이즈를 다르게 인식하여 수백 번 모델을 피팅 한 다음 새로운 포인트를 예측한다고 상상해보십시오. 적합과 예측 모두에 대해 매번 근본적으로 다른 결과를 얻을 수 있습니다 (다항식 모델은이 점에서 특히 중요합니다). 다시 말해 적합치와 예측 변수의 분산이 매우 높습니다.

대조적으로 포화되지 않은 모델은 (합리적으로 구성된 경우) 다른 잡음 구현에서도 서로 더 일관된 피팅을 제공하며 예측 변수의 분산도 줄어 듭니다.


17

데이터 포인트 (관측치)만큼 많은 매개 변수가있는 경우에만 모델이 포화됩니다. 또는 포화되지 않은 모델에서 자유도는 0보다 큽니다.

이는 기본적으로이 모델이 쓸모가 없음을 의미합니다. 이는 원시 데이터보다 데이터를 더 공명 적으로 묘사하지 않기 때문입니다. 또한 포화 모델은 데이터를 보간하거나 반복하기 때문에 (필수는 아니지만) 완벽하게 맞을 수 있습니다.

예를 들어 일부 데이터의 평균을 모델로 사용하십시오. 평균 (예 : 5; 평균은 하나의 데이터 포인트에 대한 포화 모형 임)을 사용하여 하나의 데이터 포인트 (예 : 5) 만있는 경우 전혀 도움이되지 않습니다. 그러나 이미 평균 (즉, 6)을 모델로 사용하는 두 개의 데이터 포인트 (예 : 5 및 7)가있는 경우 원래 데이터보다 더 많은 설명을 제공합니다.


8
완벽한 적합을 의미하지 않는 포화에 대한이 점은이 실에서 가장 흥미로운 부분입니다. 그러한 상황의 자연스러운 예는 단조로운 회귀 입니다. 예를 들어, 시간이 지남에 따라 값이 증가해야하고 다항식 회귀 분석을 수행 하여 다항식이 증가하도록 제한 한다고 가정하십시오 . 약간의 오차가있는 데이터를 고려하여 때때로 약간 줄어 듭니다. 그런 다음 얼마나 많은 매개 변수를 사용하더라도 ( 데이터 값의 수 보다 큰 경우에도 ) 이러한 데이터에 완벽하게 맞지 않습니다.
whuber

17

다른 사람들이 이전에 말했듯이, 데이터 포인트가 많은 매개 변수를 가지고 있음을 의미합니다. 따라서 적합성 테스트의 장점은 없습니다. 그러나 이것이 "정의에 의해"모델이 모든 데이터 요소에 완벽하게 적합 할 수 있다는 것을 의미하지는 않습니다. 특정 데이터 포인트를 예측할 수없는 일부 포화 모델을 사용한 개인적인 경험을 통해 알 수 있습니다. 매우 드물지만 가능합니다.

또 다른 중요한 문제는 포화 상태가 쓸모가 없다는 의미입니다. 예를 들어, 인간인지의 수학적 모델에서, 모델 파라미터는 이론적 배경을 가진 특정인지 과정과 관련이 있습니다. 모델이 포화 된 경우 특정 매개 변수에만 영향을주는 조작을 통해 집중적 인 실험을 수행하여 적합성을 테스트 할 수 있습니다. 이론적 예측이 모수 추정치의 관측 된 차이 (또는 부족)와 일치하면 모형이 유효하다고 말할 수 있습니다.

예를 들어,인지 처리와 운동 반응에 대한 두 개의 매개 변수 세트가있는 모델을 상상해보십시오. 두 가지 조건에 대한 실험이 있는데, 그 중 하나는 참가자의 반응 능력이 손상되고 (두 손 대신 한 손만 사용할 수 있음), 다른 조건에서는 손상이 없음을 상상해보십시오. 모형이 유효하면 두 조건에 대한 모수 추정치의 차이는 모터 응답 모수에 대해서만 발생해야합니다.

또한 하나의 모델이 포화되지 않은 경우에도 여전히 식별 할 수 없으므로 매개 변수 값의 다른 조합이 동일한 결과를 생성하여 모든 모델에 적합하지 않음을 의미합니다.

일반적으로 이러한 문제에 대한 자세한 정보를 찾으려면 다음 문서를 살펴보십시오.

Bamber, D. & JPH (1985). 모델이 얼마나 많은 매개 변수를 가지고 있고 여전히 테스트 할 수 있습니까? 수학 심리학 저널, 29, 443-473.

Bamber, D., & JAN van vanten (2000). 모델의 테스트 가능성 및 식별 가능성을 평가하는 방법. 수학 심리학 저널, 44, 20-40.

건배


3

유사 가능성 모델에 대한 AIC를 계산해야하는 경우에도 유용합니다. 분산 추정치는 포화 모형에서 나와야합니다. AIC 계산에서 포화 모형의 추정 분산으로 피팅하려는 LL을 나눕니다.


2

SEM (또는 경로 분석)과 관련하여 포화 모델 또는 방금 식별 된 모델은 자유 매개 변수의 수가 분산 및 고유 공분산의 수와 정확히 동일한 모델입니다. 예를 들어 다음 모델은 3 * 4 / 2 데이터 포인트 (분산 및 고유 공분산)와 추정 할 6 개의 자유 매개 변수가 있으므로 포화 모델입니다.

포화 모델

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.