나는이 접근법이 잘못되었다고 생각하지만 이유를 설명하면 더 도움이 될 것입니다. 많은 수의 변수에 대한 정보가 제공되는 최상의 모델을 알고 싶어하는 것은 이해할 만합니다. 또한 사람들이 규칙적으로 자신을 찾는 것처럼 보입니다. 또한 회귀에 관한 많은 교과서 (및 과정)에는 단계별 선택 방법이 포함되어 있으며 이는 합법적이어야 함을 의미합니다. 그러나 안타깝게도 이러한 상황과 목표의 페어링은 성공적으로 탐색하기가 매우 어렵습니다. 다음은 자동화 된 단계별 모델 선택 절차 (Frank Harrell에 귀속되고 여기 에서 복사 됨 ) 의 문제점 목록입니다 .
- 잘못 치우친 R 제곱 값을 산출합니다.
- 출력물의 각 변수 옆에 인용 된 F 및 카이 제곱 검정에는 배분 된 분포가 없습니다.
- 이 방법은 효과에 대한 신뢰 구간과 허위로 좁은 예측값을 산출합니다. Altman and Andersen (1989) 참조.
- 적절한 의미를 갖지 않는 p- 값을 산출하며, 이에 대한 올바른 교정은 어려운 문제입니다.
- 수축이 필요한 편향 회귀 계수를 제공합니다 (잔여 변수의 계수가 너무 큽니다. Tibshirani [1996] 참조).
- 공선 성이있을 경우 심각한 문제가 있습니다.
- 미리 지정된 가설을 테스트하기 위해 사용 된 방법 (예 : 중첩 모델에 대한 F 검정)을 기반으로합니다.
- 샘플 크기를 늘리는 것은별로 도움이되지 않습니다. Derksen and Keselman (1992) 참조.
- 문제에 대해 생각할 수 없습니다.
- 종이를 많이 사용합니다.
문제는 이러한 절차에서 어떤 점이 나쁜가 / 왜 이런 문제가 발생합니까? 기본 회귀 과정을 수강 한 대부분의 사람들은 회귀 개념에 대해 잘 알고 있으므로 이러한 문제를 설명하는 데 사용합니다. (이것은 처음에는 주제가 아닌 것처럼 보일 수 있지만 나와 관련이 있다고 약속합니다.)
트라이 아웃 첫날 고등학교 트랙 코치를 상상해보십시오. 30 명의 아이들이 나타납니다. 이 아이들은 코치 나 다른 사람이 직접 접근 할 수없는 몇 가지 근본적인 능력을 가지고 있습니다. 결과적으로 코치는 자신이 할 수있는 유일한 일을합니다. 시간은 아마도 그들의 본질적인 능력의 척도 일 것이며, 그렇게 취해진 다. 그러나 그것들은 확률 적이다. 누군가가 얼마나 잘하는지의 일부 비율은 실제 능력을 기반으로하고 일부 비율은 임의입니다. 실제 상황이 다음과 같다고 상상해보십시오.
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
첫 번째 경기 결과는 다음 그림에 어린이의 코치 의견과 함께 표시됩니다.
경기 시간에 따라 아이들을 분할하면 본질적 능력이 겹치게됩니다.이 사실은 매우 중요합니다. 일부는 칭찬하고 다른 코치들은 소리를 지르며 (코치처럼) 다시 뛰게한다. 다음은 코치의 반응에 따른 두 번째 레이스의 결과입니다 (위의 동일한 모델에서 시뮬레이션 됨).
그들의 고유 한 능력은 동일하지만 첫 번째 레이스에 비해 시간이 튀었다는 것을 주목하십시오. 코치의 관점에서, 그가 고함을 지르는 사람들은 개선하는 경향이 있었고, 그가 칭찬하는 사람들은 더 나빠지는 경향이있었습니다. 코치가 부분적으로 임의적 인 측정을 기반으로 팀의 선수를 선택한다는 사실의 결과.
이제 자동화 된 (예 : 단계적) 모델 선택 기술과 어떤 관련이 있습니까? 동일한 데이터 세트를 기반으로 모델을 개발하고 확인하는 것을 데이터 준설 이라고 합니다.. 변수들 사이에 어떤 근본적인 관계가 있고, 더 강한 관계는 더 높은 점수 (예를 들어, 더 높은 t- 통계)를 산출 할 것으로 예상되지만, 이들은 임의의 변수이고 실현 된 값은 에러를 포함한다. 따라서 더 높은 (또는 더 낮은) 실현 된 값을 기반으로 변수를 선택하면 기본 실제 값, 오류 또는 둘 다로 인해 발생할 수 있습니다. 이 방법으로 진행하면 코치가 두 번째 레이스를 마친 것처럼 놀랄 것입니다. 높은 t- 통계 또는 낮은 상관 관계를 기반으로 변수를 선택하는지 여부는 사실입니다. 사실, AIC를 사용하는 것이 p- 값을 사용하는 것보다 낫습니다. 복잡함을 위해 모델에 불이익을 주지만 AIC 자체는 무작위 변수입니다 (연구를 여러 번 실행하고 동일한 모델에 적합하면 AIC는 다른 모든 것). 운수 나쁘게,
도움이 되길 바랍니다.