약 5,000 개의 관련 기능 / 공변량 및 이진 반응이있는 데이터 세트가 있습니다. 데이터가 나에게 주어졌지만 나는 그것을 수집하지 않았다. 올가미와 그라디언트 부스팅을 사용하여 모델을 만듭니다. 반복적이고 중첩 된 교차 유효성 검사를 사용합니다. 나는 올가미의 가장 큰 (절대적인) 40 계수와 그라디언트 부스트 트리에서 40 개의 가장 중요한 특징을보고합니다 (40에 대해서는 특별한 것이 없었습니다. 이는 합리적인 양의 정보 인 것 같습니다). 또한 CV의 폴드 및 반복에 대한 이러한 수량의 편차를보고합니다.
나는 "중요한"기능에 대해 뮤즈를하면서 p- 값이나 인과 관계 또는 그 밖의 것에 대해 언급하지 않고, 대신이 과정을 일종의 불완전하고 무작위적인 형태로 고려하여 어떤 현상에 대한 통찰력을 얻는다.
이 모든 작업을 올바르게 수행했다고 가정하면 (예 : 올바로 확장하여 올바르게 교차 검증을 실행 한 경우)이 방법이 합리적입니까? 예를 들어, 다중 가설 검정, 사후 분석, 잘못된 발견에 문제가 있습니까? 아니면 다른 문제?
객관적인
부작용 발생 가능성 예측
- 우선 확률을 정확하게 추정하십시오
- 더 작은-위생 검사로서, 더 자세히 조사 할 수있는 새로운 예측 변수를 밝히기 위해 위에서 언급 한 것처럼 계수와 중요도를 검사하십시오.
소비자
- 이 사건을 예측하는 데 관심이있는 연구원과 사건이 발생하면 사건을 해결해야하는 사람들
내가 그들이 원하는 것
설명 된대로 자체 데이터로 모델링 프로세스를 반복하려는 경우 이벤트를 예측할 수있는 기능을 제공하십시오.
예기치 않은 예측 변수에 대한 정보를 제공합니다. 예를 들어 완전히 예상치 못한 것이 최선의 예측 인자 일 수 있습니다. 따라서 다른 곳의 모델러는 예측 변수를 더 심각하게 고려할 수 있습니다.