스플라인 또는 분수 다항식을 사용할 때 누락 된 데이터를 어떻게 처리 할 수 ​​있습니까?


12

Patrick Royston과 Willie Sauerbrei의 연속 변수 모델링을위한 분수 다항식을 기반으로 한 회귀 분석에 대한 다변량 모델 구축 : 실용적인 접근 방식을 읽고 있습니다. 지금까지 나는 감동했으며 이전에는 고려하지 않은 흥미로운 접근법입니다.

그러나 저자는 누락 된 데이터를 처리하지 않습니다. 실제로, p. 17 그들은 누락 된 데이터는 "많은 추가적인 문제를 야기시킨다. 여기서는 고려하지 않는다"고 말한다.

소수 다항식으로 다중 대치가 작동합니까?>

FP는 어떤면에서 스플라인에 대한 대안입니다. 스플라인 회귀에 대한 누락 된 데이터를 다루는 것이 더 쉬운가요?


누락 된 x 또는 누락 된 y 또는 둘 다를 처리하고 있습니까?
Glen_b-복지 주 모니카

2
+1 (!) 다른 사람이 비슷한 질문을하는 것을 보게되어 정말 기쁩니다. 최근 에이 질문을 게시했습니다 : stats.stackexchange.com/questions/295977/… R의 마우스에서 제한된 입방 스플라인을 사용하는 방법에 대해. 스플라인은 많은 기능적 형태에 충분히 유연하지만 스플라인은 분수 다항식을 지정할 필요가 없으므로 스플라인을 선택합니다. 그래도 이것이 귀하의 질문에 답변되는지 여부는 알 수 없습니다 (따라서이 의견).
IWS

2
이것은 누락 된 데이터를 수용 할 수있는 능력을 대조하여 이러한 몇 가지 평활화 / 보간 기술에 대한 비판을받을 가능성을 열어 (가능한 답변의 한 차원으로) 흥미로운 질문입니다. (어느 정도까지는, 실종에 대한 취약성은 현대적인 방법에 대한 '당황'입니다.) 베이지안 구현이 당신에게 대가를 '무료로'줄 수 있다는 명백한 점을 전달할 때만 주목합니다.
David C. Norris

2
@ DavidC.Norris 귀하의 의견은 저를 매료시킵니다! 베이지안 방법이 누락 된 '무료'를 수용하는 방법에 대해 자세히 설명해 주시겠습니까? (적절하게 '자동'으로 그리고 기본적으로 분석 방법으로 처리된다고 가정합니다)? (또는 참고 자료로 알려주세요)
IWS September

2
여기서 "무료"의 자유 점심 부분은 베이지안 모델을 작성해야한다는 것인데, 이는 데이터 생성 프로세스 ( DGP )에 대해 명시 적으로 생각하는 것을 의미 합니다. 그렇게하면 결 측값을 [nuisance] 매개 변수로 취급합니다. (베이지안에서는 "모든 것이 매개 변수"입니다. 잠재 변수 도 참조하십시오 .) 그러면 MCMC는 기본적으로 누락 된 값을 "무료로"무시하도록 지정한 DGP를 악용합니다.
David C. Norris

답변:


1

소수 다항식과 스플라인에는 다중 대치가 사용될 수 있습니다. 하자 그 말을 귀하의 함수 형태 (예를 들면, 대표 ). 하자 에서 각각 추정 한 함수이어야 다음 기능은 합성 샘플 .f(x)f(x)=x+x.5fm()M1MmMfm(x)

사용하는 소프트웨어가 x의 모든 고유 한 값에 대해 표준 오류 추정치를 제공 할 수 있다고 가정하면 표준 오류를 계산하기 위해 Rubin 's (측량에서 무응답에 대한 다중 대치; 1987) 공식을 사용할 수 있습니다. 다중 대치가있는 자유도에 대한 작고 큰 샘플 수식이 있습니다. 큰 표본 공식 (또한 Rubin)은 표준 오류와 동일한 입력을 취하므로 사용할 수도 있습니다. 작은 표본 사례는 모형의 자유도를 입력 값으로 사용합니다. 이 공식을 여기에 적용 할 수 있는지는 분명하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.