혼합 모형이 예측 모형으로 유용합니까?


24

나는 예측 모델링과 관련하여 혼합 모델의 장점에 대해 약간 혼란 스럽습니다. 예측 모델은 일반적으로 이전에 알려지지 않은 관측치의 값을 예측하기위한 것이기 때문에 혼합 모델이 유용 할 수있는 유일한 방법은 모집단 수준 예측 (임의의 효과를 추가하지 않음)을 제공하는 기능을 통해서만 가능하다는 것입니다. 그러나 문제는 지금까지 혼합 모형을 기반으로 한 인구 수준 예측이 고정 효과 만있는 표준 회귀 모형을 기반으로 한 예측보다 상당히 나쁘다는 것입니다.

예측 문제와 관련하여 혼합 모델의 요점은 무엇입니까?

편집하다. 문제는 다음과 같습니다. 혼합 모델 (고정 및 랜덤 효과 모두)과 고정 효과 만있는 표준 선형 모델을 적합했습니다. 교차 유효성 검사를 수행하면 다음과 같은 예측 정확도 계층이 나타납니다. 1) 고정 및 랜덤 효과를 사용하여 예측할 때 혼합 모형 (물론 알려진 수준의 임의 효과 변수가있는 관측치에 대해서만 작동하므로이 예측 방식은 그렇지 않습니다. 실제 예측 애플리케이션에 적합해야합니다!); 2) 표준 선형 모델; 3) 모집단 수준 예측을 사용할 때 혼합 모형 (임의의 효과가 튀어 나옴). 따라서 표준 선형 모델과 혼합 모델의 유일한 차이점은 다른 추정 방법으로 인해 계수 값이 약간 다르다는 것입니다 (즉, 두 모델 모두에 동일한 효과 / 예측자가 있지만 연관된 계수는 다릅니다).

그래서 혼동은 질문으로 귀결됩니다. 혼합 모델을 사용하여 모집단 수준 예측을 생성하는 것이 표준 선형 모델과 비교할 때 열등한 전략 인 것처럼 보이기 때문에 혼합 모델을 예측 모델로 사용하는 이유는 무엇입니까?


당신은 어떻게 예측하고 있습니까? 랜덤 효과를 사용하지 않습니까? 또는 랜덤 효과를 평균적으로 수정하고 있습니까? (즉, 예측 시간에 임의의 효과를 버리고 있습니까?)
Wayne

임의의 효과를 올바르게 이해하는 한, 임의의 효과를 평균으로 고정하는 것은 임의의 효과 (적어도 내가 사용하는 매개 변수에서)가 평균 0의 평균 분포와 분산 시그마에서 생성되므로 효과를 버리는 것과 같습니다. 그러나 어쨌든, 새로운 관측치에 대한 랜덤 효과 변수의 값을 모르기 때문에 물론 예측시 랜덤 효과를 사용하지 않고 고정 효과 만 사용합니다.
sztal

1
당신은, "세로 데이터에 대한 혼합 모델 기반 로지스틱 회귀 분류기의 효과에"이 논문을 통해보고 할 수 있습니다 search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/...

1
sztal : 물론입니다. 나는 신속하게 대응하려고했지만 의미가없는 것을 말했습니다. 섹션 7의 예측을 다루는 논문 ( gllamm.org/JRSSApredict_09.pdf )을 찾았습니다 . 나는 그것을 이해하지 못한다는 의견으로 요약 할 수 없다고 말해야합니다.
Wayne

마지막 질문 : 고정 효과 만 혼합 효과와 비교할 때 개별 수준 차단과 같은 것을 추가하여 각각 동일한 고정 효과를 사용하고 있습니까? 이 상황에서는 실제 예측 간격에 대한 더 나은 아이디어를 제외하고는 매우 유사한 효과가 있어야합니다.
Wayne

답변:


17

데이터의 특성에 따라 다르지만 일반적으로 혼합 모델이 고정 효과 모델 만 능가 할 것으로 예상합니다.

햇빛과 밀 줄기의 높이 사이의 관계를 모델링하는 예를 들어 보겠습니다. 우리는 개별 줄기를 여러 번 측정했지만 많은 줄기는 같은 위치 (토양, 물 및 높이에 영향을 줄 수있는 다른 것들에서 유사)에서 측정됩니다. 가능한 모델은 다음과 같습니다.

1) 높이 ~ 햇빛

2) 높이 ~ 햇빛 + 사이트

3) 높이 ~ 햇빛 + (1 | 사이트)

우리는이 모델을 사용하여 새로운 밀 줄기의 높이를 예측하려고합니다. 고정 효과 전용 모델로 많은 사이트를 보유한 경우 지불해야 할 매개 변수 페널티를 무시하고 모델의 상대적 예측력을 고려하겠습니다.

여기서 가장 관련성이 높은 질문은 예측하려는 새로운 데이터 포인트가 측정 한 사이트 중 하나에서 온 것인지 여부입니다. 당신은 이것이 실제 세계에서는 드물다고 말하지만, 그것은 일어나고 있습니다.

A) 새로운 데이터는 측정 한 사이트에서 가져온 것입니다.

그렇다면 모델 # 2 및 # 3이 # 1보다 성능이 우수합니다. 둘 다보다 관련성있는 정보 (평균 사이트 효과)를 사용하여 예측합니다.

B) 측정되지 않은 사이트의 새 데이터

다음과 같은 이유로 모델 # 3이 # 1 및 # 2보다 성능이 우수 할 것으로 예상합니다.

(i) 모델 # 3 대 # 1 :

모델 # 1은 과도하게 표현 된 사이트에 유리하게 편향된 추정치를 생성합니다. 각 사이트에서 비슷한 수의 포인트와 합리적으로 대표되는 사이트 샘플이 있으면 두 가지 모두에서 비슷한 결과를 얻을 수 있습니다.

(ii) 모델 # 3 대 # 2 :

이 경우 모델 # 3이 모델 # 2보다 나은 이유는 무엇입니까? 무작위 효과는 수축 을 이용하기 때문에 사이트 효과는 0으로 '줄어 듭니다'. 다시 말해, 사이트 효과가 고정 효과로 지정된 경우보다 임의 효과로 지정된 경우 사이트 효과에 대한 극단적 인 값이 적습니다. 이는 모집단 평균이 정규 분포에서 도출 된 것으로 생각 될 수있을 때 유용하며 예측 능력을 향상시킵니다 ( Stain 's Paradox in Statistics ). 모집단 평균이 정규 분포를 따르지 않을 것으로 예상되는 경우 이는 문제 될 수 있지만 일반적으로 매우 합리적인 가정이며이 방법은 작은 편차에 강합니다.

[측면 참고 : 기본적으로 모델 # 2를 피팅 할 때 대부분의 소프트웨어는 사이트 중 하나를 참조로 사용하고 참조와의 편차를 나타내는 다른 사이트의 계수를 추정합니다. 따라서 전체 '인구 효과'를 계산할 방법이없는 것처럼 보일 수 있습니다. 그러나 모든 개별 사이트에 대한 예측을 평균화하거나 더 간단하게 모델의 코딩을 변경하여 모든 사이트에 대한 계수가 계산되도록하여이를 계산할 수 있습니다.]


답변 해주셔서 감사합니다. 나는 오히려 확신합니다. 불행히도 나는 지금 내 질문에 동기를 부여 한 정확한 사례를 기억하지 못하지만, 내 경우에 혼합 모델의 성능이 좋지 않은 것은 모델에 사용한 예측 변수의 불규칙한 분포 때문일 수 있다고 생각합니다. 나는 그 대답을 곧 받아 들일 것이지만, 질문에 약간의 관심이 끌 렸기 때문에 누군가가 더 엄격한 외식을 할 수 있도록 몇 일을 더 주겠다.
sztal

1
잘 넣어 랜덤 효과를 발생시키는 사이트 별 효과를 계층 적으로 예측하고, 모델에서 임의의 가로 채기 또는 임의의 기울기가 경험적으로 추정 된 것을 예측하는 것은 단지 개별 레벨과 사이트 특정 고정 효과를 갖는 것과 동등해야함에 유의해야합니다. 모델에서.
AdamO

8

mkt의 탁월한 반응에 대한 후속 조치 : 건강 보험 분야에서 예측 모델을 개발하는 내 개인적인 경험을 통해 예측 효과 모델 (머신 러닝 모델 포함)에 임의의 효과를 통합하면 여러 가지 장점이 있습니다.

나는 종종 개인의 과거 청구 데이터에 근거하여 미래의 청구 결과 (예 : 미래의 건강 비용, 체류 기간 등)를 예측하는 모델을 작성하도록 요청받습니다. 상관 관계있는 결과를 가진 개인마다 여러 개의 클레임이 자주 발생합니다. 동일한 환자가 많은 주장을 공유한다는 사실을 무시하면 예측 모델에서 귀중한 정보를 버릴 수 있습니다.

한 가지 해결 방법은 데이터 집합의 각 멤버에 대해 고정 효과 표시기 변수를 만들고 처벌 회귀를 사용하여 각 멤버 수준 고정 효과를 개별적으로 축소하는 것입니다. 그러나 데이터에 수천 또는 수백만의 구성원이있는 경우 계산 및 예측 관점에서보다 효율적인 솔루션은 정규 분포를 사용하여 여러 구성원 수준의 고정 효과를 단일 랜덤 효과 항으로 나타내는 것일 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.