고차원의 상관 데이터와 주요 특징 / 공변량이 발견되었습니다. 다중 가설 검정?


9

약 5,000 개의 관련 기능 / 공변량 및 이진 반응이있는 데이터 세트가 있습니다. 데이터가 나에게 주어졌지만 나는 그것을 수집하지 않았다. 올가미와 그라디언트 부스팅을 사용하여 모델을 만듭니다. 반복적이고 중첩 된 교차 유효성 검사를 사용합니다. 나는 올가미의 가장 큰 (절대적인) 40 계수와 그라디언트 부스트 트리에서 40 개의 가장 중요한 특징을보고합니다 (40에 대해서는 특별한 것이 없었습니다. 이는 합리적인 양의 정보 인 것 같습니다). 또한 CV의 폴드 및 반복에 대한 이러한 수량의 편차를보고합니다.

나는 "중요한"기능에 대해 뮤즈를하면서 p- 값이나 인과 관계 또는 그 밖의 것에 대해 언급하지 않고, 대신이 과정을 일종의 불완전하고 무작위적인 형태로 고려하여 어떤 현상에 대한 통찰력을 얻는다.

이 모든 작업을 올바르게 수행했다고 가정하면 (예 : 올바로 확장하여 올바르게 교차 검증을 실행 한 경우)이 방법이 합리적입니까? 예를 들어, 다중 가설 검정, 사후 분석, 잘못된 발견에 문제가 있습니까? 아니면 다른 문제?

객관적인

부작용 발생 가능성 예측

  • 우선 확률을 정확하게 추정하십시오
  • 더 작은-위생 검사로서, 더 자세히 조사 할 수있는 새로운 예측 변수를 밝히기 위해 위에서 언급 한 것처럼 계수와 중요도를 검사하십시오.

소비자

  • 이 사건을 예측하는 데 관심이있는 연구원과 사건이 발생하면 사건을 해결해야하는 사람들

내가 그들이 원하는 것

  • 설명 된대로 자체 데이터로 모델링 프로세스를 반복하려는 경우 이벤트를 예측할 수있는 기능을 제공하십시오.

  • 예기치 않은 예측 변수에 대한 정보를 제공합니다. 예를 들어 완전히 예상치 못한 것이 최선의 예측 인자 일 수 있습니다. 따라서 다른 곳의 모델러는 예측 변수를 더 심각하게 고려할 수 있습니다.


의도가 무엇인지 아는 것이 유용합니다. 왜 이런 짓을 했어? 소비자는 누구이며 분석에서 무엇을 얻고 싶습니까?
Matthew Drury

답변:


2

예측 정확도에는 문제가 없습니다. 예측의 불확실성은 교차 검증에 의해 잘 추정됩니다. 많은 매개 변수 설정을 테스트하는 경우 정확도를 과대 평가하므로 유효성 검사 세트를 사용하여 최종 모델의 정확도를 추정해야 할 수도 있습니다. 또한 데이터는 예측하려는 데이터를 나타내야합니다.

예측자는 효과의 원인이 아니라, 단지 좋은 예측을하고 예측 적으로 잘 작동하는 예측 자일 뿐이라는 것은 분명합니다. 귀하의주의에 전적으로 동의하지만, 관찰 데이터에서 인과를 추론하는 것은 어떠한 경우에도 문제가됩니다. 중요성과 같은 것들은 잘 설계되고 통제 된 연구에서 "유효한"개념이며, 그 밖의 것들은 단지 당신과 다른 사람들이 현명하고 신중하게 해석해야 할 도구 일뿐입니다. 신뢰 구간과 올가미 모델뿐만 아니라 그래디언트 부스트 트리 모델에서보고 된 신뢰 구간을 갖는 일반적인 선형 회귀 분석에서 일반적인 원인, 가짜 효과, 마스킹 및 기타 일이 발생할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.