k 범주 형 변수에 해당하는 회귀 스무딩 스플라인에서 k 매듭을 선택 했습니까?


9

환자의 나이 (년 단위로 측정 된 정수 수량)가 예측 변수 중 하나 인 예측 비용 모델을 작성 중입니다. 연령과 입원 위험 사이의 강력한 비선형 관계가 분명합니다.

여기에 이미지 설명을 입력하십시오

환자 연령에 대한 처벌 회귀 스무딩 스플라인을 고려하고 있습니다. 에 따르면 통계 학습의 요소 (Hastie 등, 2009, 151), 최적의 매듭 배치는 회원 시대의 고유 한 값 당 하나 개의 매듭이다.

나이를 정수로 유지한다는 점을 감안할 때, 처벌 된 스무딩 스플라인은 데이터 세트에서 발견 된 연령 값 당 하나의 101 개의 연령 표시 변수가있는 능선 회귀 또는 올가미를 실행하는 것과 동등합니까 (참조를 위해 -1)? 그런 다음 각 연령 표시기의 계수가 0으로 줄어듦에 따라 초과 매개 변수화를 피할 수 있습니다.


연령 표시기 + 수축에 대한 제안은 본질적으로 0의 스무딩 스플라인과 동일합니다.
Glen_b -Reinstate Monica

승인 이유 중 하나에서 제안한대로 다른 예측 변수가 무엇인지 지정하면 승인 이유를 제어 할 경우 그래프가 매우 다를 수 있습니다.
seanv507

답변:


11

좋은 질문입니다. 나는 당신이 묻는 질문에 대한 대답은 "리지 능형 회귀 또는 올가미를 달리는 것과 같은 불이익 스무딩 스플라인입니까?"라고 믿습니다. 주석과 관점을 제공 할 수있는 여러 출처가 있습니다. 시작할 수있는 곳 중 하나 는이 PDF 링크 입니다. 노트에 언급 된 바와 같이 :

"스무딩 스플라인 모델을 피팅하면 자연스러운 스플라인을 기준으로 릿지 회귀 형태를 수행 할 수 있습니다."

일반적인 독서를 찾고 있다면, Penalized Regressions : The Bridge Versus the Lasso에 관한이 훌륭한 논문을 확인하는 것이 좋습니다. 이것은 평활화 된 스플라인 스플라인이 더 일반적인 관점을 제공하지만 정확히 동등한 지 여부에 대한 질문에 답하는 데 도움이 될 수 있습니다. 서로 다른 기술, 특히 LASSO가 포함 된 새로운 브리지 회귀 모델과 릿지 회귀를 비교하면서 흥미 롭습니다.

확인할 또 다른 전략적 장소 는 R 의 smooth.spline 패키지대한 패키지 노트 일 수 있습니다 . "B- 스플라인 기준 표현을 f로 표시 할 수있는 이러한 정의를 사용하여 여기에서 관계를 암시합니다. = X c (즉, c는 스플라인 계수의 벡터 임), 처벌 된 로그 우도는 이므로 는 해입니다 (리지 회귀)의 . "=(와이에프)(와이에프)+λΣ(엑스엑스+λΣ)=엑스와이


@RobertF 걱정하지 마십시오. 좋은 오후 보내세요.
Nathaniel Payne

1
단락 1의 링크 PDF에 대한 링크가 끊어졌습니다.
Jthorpe

3

줄거리가 주어지면 정말 많은 매듭을 원하는지 확신 할 수 없습니다.

특정 연령대에 작은 샘플이있을 수 있습니다. 74에서 피크와 로우 및 하이 엔드에서 0 값은 거의 의미가 없습니다.

사이트의 소스 권한이 주어지면 훨씬 적은 수의 매듭으로 제한된 큐빅 스플라인을 원하십니까?


1
고마워 피터-네 obs의 수는 아주 젊고 노인을 위해 드문 드문합니다. 너무 많은 매듭을 사용하는 것은 반 직관적 인 것처럼 보이므로 ESL에서 처음 읽을 때 매번 관찰에 매듭을두면 벌점 잔존 제곱합이 최소화 되는 정신적 이중 복용을했습니다 . 제한된 입방 스플라인 또는 페널티 스무딩 스플라인이 테스트 데이터 세트의 응답 변수를 예측하는 데 더 잘 작동하는지 여부에 대한 증거가 푸딩에 있다고 가정합니다.
RobertF

0

나는이 토론에 늦었지만 데이터 차트를 살펴보십시오 ... 70 세 이상의 데이터에서 명백한 스파이크가 연령 관련 위험을 반영하지는 않으며 스파 스 데이터 및 임의성 증상입니다.

1 년에 1 노트를 사용하여 잡음을 과도하게 맞추는 모델을 만들고 싶지 않을 것입니다.

또한 여성 대 남성을 보면 매우 다른 패턴을 찾을 수 있습니다. 15-30 세 범위의 최고봉은 산부인과가 될 것입니다.


Hi Doug-맞습니다. 70 세 이상의 관측치가 확실히 적습니다. 매듭 스플라인 모델 당 1 년 동안 벌점을받은 1 년은 70+ 계수를 0으로 떨어 뜨릴 것입니다. 여기서 목표는 수동 선택 매듭 배치를 연령과 IP 승인 사이의 비선형 관계에 가장 잘 맞는 자동화 된 프로세스로 바꾸는 것입니다. 특히 예측 모델에 유용합니다.
RobertF
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.