나는 이것이 매우 좋은 질문이라고 생각한다. 역학에서 계량 경제학에 이르기까지 다양한 분야를 괴롭히는 논쟁적인 다중 테스트 "문제"의 핵심에 도달합니다. 결국, 어떻게 할 수 우리가 찾을 의미가 가짜인지 아닌지 우리는 알지? 다 변수 모델이 얼마나 사실입니까?
노이즈 변수를 게시 할 가능성을 상쇄하기위한 기술적 접근 방식의 관점에서 샘플의 일부를 학습 데이터로 사용하고 나머지는 테스트 데이터로 사용하는 것이 좋습니다. 이것은 기술 문헌에서 논의되는 접근 방식이므로 시간이 걸리면 사용 방법과시기에 대한 좋은 지침을 찾을 수 있습니다.
그러나 다중 테스트 의 철학 에 보다 직접적으로 맞서기 위해 아래에서 참조하는 기사를 읽는 것이 좋습니다. 일부는 다중 테스트에 대한 조정이 종종 해롭고 (비용) 불필요하며 논리적 인 오류 일 수 있다는 입장을지지합니다. . 나는 하나의 잠재적 예측 변수를 조사하는 우리의 능력이 다른 예측 자의 조사에 의해 불가피하게 감소된다는 주장을 자동적으로 받아들이지 않습니다. 가족 현명한 유형 1 오류 비율이 너무 오래 우리는 우리의 샘플 크기, 각 유형 1 오류의 가능성의 한계를 넘어 가지 않는 한 우리는 주어진 모델에서 더 예측을 포함 늘어날 수 있지만, 개별예측 변수는 일정하다; 가족 별 오류를 통제한다고해서 어떤 특정 변수가 소음이고 어떤 변수가 아닌지를 밝히지 않습니다. 물론, 강력한 반대론도 있습니다.
따라서 잠재적 변수 목록을 그럴듯한 (즉, 결과에 대한 알려진 경로가있는) 변수로 제한하는 경우 스퓨리어스의 위험은 이미 상당히 잘 처리됩니다.
그러나 예측 모델은 인과 적 모델 로서 예측 변수의 "진실 값"과 관련이 없다고 덧붙 입니다. 모델에는 많은 혼란이있을 수 있지만, 큰 차이를 설명하는 한 너무 걱정하지 않아도됩니다. 이것은 적어도 한 가지 의미에서 작업을 더 쉽게 만듭니다.
건배,
Brenden, 생물 통계 컨설턴트
추신 : 두 개의 개별 회귀 대신 설명하는 데이터에 대해 0으로 팽창 된 포아송 회귀를 수행 할 수 있습니다.
- Perneger, TV Bonferroni 조정에 문제가 있습니다. BMJ 1998; 316 : 1236
- Cook, RJ & Farewell, VT 임상 시험의 설계 및 분석에서 다중성 고려 사항 . 왕립 통계 학회지 , 시리즈 A 1996; Vol. 159, 1 호 : 93-110
- Rothman, KJ 다중 비교에는 조정이 필요하지 않습니다 . 역학 1990; Vol. 1, 1 호 : 43-46
- Marshall, JR 데이터 준설 및 주목 . 역학 1990; Vol. 1, 1 호 : 5-7
- 여러 비교를위한 Greenland, S. & Robins, JM Empirical-Bayes 조정이 때때로 유용합니다 . 역학 1991; Vol. 2, No. 4 : 244-251