연구원 1은 1000 회귀 회귀, 연구원 2는 1 회 회귀, 둘 다 동일한 결과를 얻습니다. 서로 다른 추론을해야합니까?


12

한 연구원이 데이터 세트를 탐색하고 1000 개의 서로 다른 회귀 분석을 실행한다고하는데 그 중 하나의 흥미로운 관계를 발견했다고 상상해보십시오.

이제 같은 데이터를 가진 다른 연구원 이 단 한 번의 회귀 만 실행 한다고 상상해보십시오 . 다른 연구원이 1000 번의 회귀를 찾은 것과 같은 결과 인 것으로 나타났습니다. 연구원 2는 연구원 1을 모른다.

연구원 1이 연구원 2와 다른 추론을해야합니까? 왜? 예를 들어, 연구원 1은 다중 비교 수정을 수행해야하지만 연구원 2는 수행하지 않아야합니까?

연구원 2가 먼저 단일 회귀 분석을 보여 주면 어떤 추론을 하시겠습니까? 그 연구원 1이 그의 결과를 보여준 경우, 추론을 바꿔야합니까? 그렇다면 왜 중요한가?

PS 1 : 가상 연구자에 대해 이야기하는 것은 문제 추상적를 만드는 경우,이 생각 : 상상 당신이 사용할 수있는 가장 좋은 방법을 사용하여 용지에 대한 하나의 회귀를 달렸다. 그런 다음 다른 연구원은 동일한 데이터를 사용하여 1000 개의 서로 다른 회귀를 탐색 했습니다 . 두 사람이 다른 추론을해야합니까? 증거는 두 경우 모두 동일합니까? 다른 연구원 결과를 알고 있다면 추론을 바꿔야합니까? 대중은 두 연구의 증거를 어떻게 평가해야합니까?

추신 2 : 가능하면 구체적이고 수학적 / 이론적 정당성을 제공하도록 노력하십시오!


1
유효한 비교를하려면 모든 귀무 가설과 대립 가설을 지정해야합니다. 연구원 2는 1 가설을 검정 할 수있는 반면, 연구원 1은 1000에서 1 유형 1 오류를 만들지 않을 확률을 제어하려고합니다. 동시 추론 인 경우 p- 값 조정을 수행해야합니다. 연구원 2는 하나의 테스트를 가지고 있으며 조정할 필요가 없습니다. 연구원 1의 경우 서로 다른 모델을 동일한 데이터에 맞추거나 1000 개의 데이터 세트 각각에 대해 하나의 모델에 적합합니까?
Michael R. Chernick

1
@MichaelChernick 데이터 세트는 하나뿐입니다. Researcher 1은 원하는 데이터 세트를 찾을 때까지 동일한 데이터 세트에 1000 개의 모델을 적합시킵니다. 연구원 2는 1 만 적합했습니다. 두 연구원 모두 동일한 데이터를 사용합니다. 이 두 연구원이 정확히 동일한 데이터 세트로 다른 것을 결론 지어야한다고 말할 것입니까? 연구원 2는 자신의 분석에 대해 확신을 갖고 있어야하며, 연구원 1은 다중 비교로 인해 p- 값 / 신뢰 구간을 팽창시켜야합니까?
statslearner

만약 당신이 나의 주장을 따랐다면 그들은 연구원 2만이 단일 가설을 테스트하고 연구원 1은 1000 개의 가설을 테스트하고 그가 테스트 한 모든 가설을 통제 할 필요가 있다는 의미에서 그렇게합니다. 그것은 두 가지 다른 문제를 포함합니다. 여전히 모호한 것은 "단 하나의 흥미로운 관계를 찾는 것"이라는 의미입니다. 아마도 당신은 역설적 인 상황에 처했다고 생각할 것입니다. 나는 당신이 있다고 생각하지 않습니다.
Michael R. Chernick

1
@MichaelChernick 정확히 동일한 모델을 가진 동일한 동일한 데이터에 대한 역설이 어떻게 두 가지 다른 결론을 이끌어 내지 않습니까? 두 개의 개별 논문을 읽으면 무엇을 결론을 내립니까?
statslearner

1
@MichaelChernick 내가 한 일, 그리고 이것이 당신이 옳다고 생각하는 문제를 발견했습니다.-정확히 같은 모델을 가진 동일한 데이터, 두 가지 다른 결론으로 ​​이어집니다. 답변에 대한 내 의견을 참조하십시오.
statslearner

답변:


3

다음은 귀하의 질문에 대한 "베이지안"경사입니다. 동일한 데이터 세트가 주어 졌을 때 다른 사전 정보를 가진 두 사람이 다른 답변 / 결론을 받아야하는 상황을 설명했다고 생각합니다. 더 둔감하고 극단적 인 예는 우리가 어떤 가설에서 회귀 모델 파라미터와 결론을 추측하는 "연구자 1b"가 있다고 가정합니다. 회귀 분석을 실행하는 것은 개념 상 추측과 너무 멀지 않습니다.1000

내가 생각하고있는 것 ... 위의 질문에서 연구원들의 사전 정보 에 대해 무엇을 배우는가 ? - 연구원 1은 아마도 모델의 평면 이전이 연구원이이이자의 모델에 대한 날카로운 사전 - (가정 있다 둘 다 맞는 모델)P(Mk|I1)=11000P(M1|I2)=1M1

이것은 분명히 단순화 된 것이지만 여기서 볼 수 있습니다. 우리는 이미 데이터없이 연구원 2의 추론에 더 많은 비중을두고 있습니다. 하지만이 데이터들은 한 번에 모두 걸릴 계정에 대한 1의 사후 확률 연구원, 참조 증가 ... 더 나은 "이었기 때문에 (... 우리는 이것을 알고 " 다른 모델 보다 ...). 연구원 2의 후부는 더 이상 집중할 수 없으며 이미 과 같습니다 . 우리가 모르는 것은 대안에 비해 데이터가 을 얼마나 지원 했는지 입니다. 우리는 모르는 다른 모델은 예를 들어, 연구원 1의 실질적인 결론을 변경하는 방법, 모든 가정입니다M1P(M1|DI)>>P(M1|I)9991M11000모형에는 공통 항이 포함되어 있으며 해당 변수에 대한 회귀 모수는 모두 보다 훨씬 큽니다 (예 : 모든 모형의 ). 그런 다음 많은 모델이 적합하더라도 상당히 긍정적 인 효과를내는 데 아무런 문제가 없습니다.10000pvalue<108

또한 데이터 세트가 얼마나 큰지 말하지 않아도됩니다. 관측치와 공변량 / 예측 변수 / 독립 변수 가있는 데이터 세트에 대해 이야기하는 경우 연구원 1은 모형에 대해 여전히 불확실 할 수 있습니다. 그러나 연구원 1이 관측치를 사용 하는 경우 모델을 결정적으로 결정할 수 있습니다.10 2 , 000 , 000100102,000,000

서로 다른 정보로 시작하고 동일한 데이터를 본 후에도 다른 결론을 계속 내리는 두 사람에게는 근본적으로 잘못된 것은 없습니다. 그러나 "모델 공간"이 겹치고 데이터가이 "중첩 영역"을 지원하는 경우 동일한 데이터를 보면 서로 더 가깝게됩니다.


따라서 귀하의 주장의 근본적인 부분은 이전 데이터가 다르기 때문에 서로 다른 추론을해야한다는 것입니다. "데이터를 얼마나 많이 탐색했는지"가 아니라 맞습니까?
statslearner

그런데, 어떻게 것입니다 당신은 증거를 평가? 연구원 1이 몇 개의 모델을 장착했는지 관심이 있습니까? 그렇다면 왜 그렇습니까?
statslearner

필자는 꼭 맞는 모델 에 신경 쓰지 않아도 되지만 사용되는 모델이 어느 정도 확실하게 알려져 있는지 여부를 알 수 있습니다. 간략하게 언급했듯이 합리적인 대안이 있는지 알고 싶습니다. 예를 들어, 연구원 1이 변수가 삭제 / 추가되는 것에 대해 "라인 볼 (line ball)"결정을 내렸다면 언급 한 것을보고 싶습니다.
probabilityislogic

1
왜 당신이 언급 한 것을보고 싶습니까? 그것이 이전의 방법을 어떻게 바꾸겠습니까? 이전에 그를 대리로 사용하고 있습니까? 당신이 만들고있는 매핑이 분명하지 않습니다. 데이터 생성 프로세스에 전혀 영향을 미치지 않기 때문에 특정 연구원의 이유가 추론에 중요한 이유는 무엇입니까?
statslearner

1
우리는 여기에있는 데이터 세트를 연구원 외부에있는 것으로 간주하고 있으며, 수집하지 않았으며 두 연구원 모두 동일한 데이터를 사용합니다. 심리학에서 연구 결과를 재현 할 수없는 이유는 합리적인 합당한 사람 / 과학자가 우선적으로 어리석은 것을 발견 할 수있는 몇 가지 미친 가설을 판단하기 위해 증거 표준 으로 느슨한 중요성 임계 값을 사용하기 때문 입니다. 이 예에서 테스트 한 가설이 그처럼 엄청나게 강력한 포즈라면, 1 회 또는 1000 회 회귀를 수행했는지 여부가 중요합니까?
statslearner

7

통계적 해석은 당신이 원하는 것보다 수학적 치료보다 명확하지 않습니다.

수학은 명확하게 정의 된 문제에 관한 것입니다. 예를 들어 완벽한 주사위를 굴 리거나 항아리에서 공을 그립니다.

통계는 수학이 지침을 제공하지만 (정확한) 솔루션이 아닌 수학에 적용됩니다.

이 경우 상황이 중요한 역할을한다는 것이 분명합니다. 회귀를 수행 한 다음 강도를 표현하기 위해 일부 p 값을 계산 (수학)하면 p 값의 해석 (통계) 및 값은 무엇입니까?

  • 연구원 1수행 한 1000 회귀 분석의 경우 실제로 실마리가없고 데이터를 탐색 할 때 이런 유형의 상황이 발생하기 때문에 결과가 훨씬 약합니다. p 값은 무언가 있을 있음을 나타냅니다 .

    따라서 연구원 1이 수행 한 회귀 분석에서 p 값은 분명히 가치가 떨어집니다. 그리고 연구원 1 또는 연구자 1의 결과를 사용하는 누군가가 회귀로 무언가를 수행하려면 p 값을 수정해야합니다. (연구자 1과 연구자 2의 차이가 충분하지 않다고 생각하는 경우, 연구자 1이 다중 비교를 위해 p 값을 수정할 수있는 다양한 방법에 대해 생각하십시오)

  • 연구원 2에 의해 수행 된 단일 회귀의 경우 결과는 훨씬 더 강력한 증거입니다. 그러나 그것은 회귀가 독자적인 것이 아니기 때문입니다. 우리는 그 이유를 포함해야 하는 이유 연구원 2는 하나의 회귀했다. 그는 단일 회귀가 데이터에 대한 좋은 모델이라고 이미 믿어야 할 정당한 이유가 있었기 때문일 수 있습니다.

  • 연구원 1과 2에 의해 수행 된 회귀의 설정은 매우 다르며, 같은 문제에 대해 동시에 두 가지를 만나는 것은 아닙니다 . 이 경우라면

    • 연구원 2는 매우 운이 좋았습니다

      이것은 드문 일이 아니므로 문학을 해석 할 때이 문제를 더 잘 해결해야하며 전체 연구 그림의 출판을 개선해야합니다. 연구원 2와 같은 천 명의 연구원이 있고 그 중 한 명만이 성공을 거둔 것을 볼 수 있다면 다른 999 명의 연구원의 실패를 보지 못했기 때문에 연구원 1과 같은 사례가 없다고 잘못 생각할 수 있습니다.

    • 연구원 1은 그다지 똑똑하지 않았고 회귀에 대해 엄청나게 불필요하게 탐색했지만, 처음부터 그 단일 한 것이어야한다는 것을 알았을 수 있으며, 더 강력한 테스트를 수행 할 수있었습니다.

      연구원 1보다 똑똑한 외부인 (처음부터 추가 999 회 회귀에 신경 쓰지 않음)의 작업에 대해 읽으면 결과의 중요성에 더 많은 힘을 줄 수 있지만 여전히 연구원의 결과 2.

      999 명의 불필요한 추가 회귀를 교정 할 때 연구원 1이 너무 보수적이었을 수 있지만, 우리는 연구가 지식의 빈틈에서 수행되었다는 사실을 무시할 수 없으며 유형 1보다 운이 좋은 연구원을 찾을 가능성이 훨씬 높습니다 2.

흥미로운 관련 이야기 : 천문학에서 우주 배경을 더 정밀하게 측정하기 위해 더 나은 계측기를 계획 할 때 데이터의 절반 만 공개한다고 주장하는 연구자들이있었습니다. 데이터를 수집 할 샷이 하나뿐이기 때문입니다. 수십 명의 다른 연구자들이 모든 회귀 분석을 수행 한 후 (그리고 이론가의 놀라운 변형과 창의성으로 인해 데이터의 모든 가능한 임의의 충돌에 확실히 부합 할 수 있음), 검증 할 새로운 실험 (즉, 완전히 새로운 우주를 생성 할 수없는 경우).


1
내 의견에서 말했듯이 @MartijnWeterings의 경우 +1 문제가 수학적으로 잘 제기되지 않았습니다. OP는 두 연구자들이 동일한 모델 선택을 할 것이기 때문에 1000 개의 회귀 분석을 수행하는 연구가 다중 비교 문제의 필요성 때문에 처벌을 받기 때문에 역설이 있다고 생각한다는 인상을 받았습니다. 나는 이것을 역설로 전혀 보지 못한다 (투명하지는 않지만 OP는 그렇게 생각한다). 두 사례가 다른 이유를 직관적으로 설명하는 매우 아름답게 작성되고 정답을 제공했습니다. OP가 답을 확인해야한다고 생각합니다!
Michael R. Chernick

@MichaelChernick 귀하의 의견은 사례 / 문제를 처리하기에 충분했을 수도 있지만 강력한 '통계 수학'맛으로 답변을 진술하는 것이 유용하다는 것을 알았습니다 . 필요한 '수학적 / 이론적 정당성' 에서 벗어나 통계적 용어와 문제가 수학적 문제보다 모호하게 정의되어 있음을 인정하면 질문의 모호성이 훨씬 더 명확 해집니다.
Sextus Empiricus

1
또한 이것이 일반적인 관행이라는 것을 알고 있지만 동일한 데이터 생성 프로세스의 동일한 모델과 데이터 일 때 한 결과가 다른 결과보다 "더 강력한 증거"라고 말하는 데 어려움을 겪고 있지 않습니까? 유일한 차이점은 제 3자가 데이터를 얼마나 많이 보았는가에 관한 것이며, 이는 DGP 자체 또는 문제에 대한 귀하의 이전 신념과 관련이 없어야합니다. 예를 들어, 연구원 1의 무지에 의해 연구원 2 분석이 오염되어야 하는가?
statslearner

1
@MartijnWeterings 왜 연구원의 의도가 데이터 해석에 중요한가? 이것을 휴리스틱으로 사용하고 전문가 결과를 해석하는 평신도로서 사용하면 좋습니다. 그러나 데이터를 분석하는 과학자의 경우, 연구원의 의도가 증거에 대한 해석과 아무런 관련이없는 것 같습니다.
statslearner

1
따라서 연구원의 행동을 이전 의 대리자 로 사용하고있는 것 같습니다 . 연구자가 1000 회귀를 실행했다면, 그것은 특정 가설 이전의 최저치에 해당합니다. 그가 단지 1을 달렸다면, 이것은 그 가설에 앞서 높은 수치에 해당 할 것입니다. 두 가지 경우가 있다면 사용하기 전에 어느 것을 알지 못합니다.
statslearner

1

간단한 이야기 ​​: 사용 된 방법이나 수집 된 데이터에 대해 알지 못하므로 질문에 대한 충분한 정보가 없습니다.

긴 대답 ... 여기의 실제 질문은 각 연구원이 수행하고 있는지 여부입니다.

  • 엄격한 과학
  • 엄격한 의사 과학
  • 데이터 탐색
  • 데이터 준설 또는 p- 해킹

그들의 방법은 결과 해석의 강도를 결정합니다. 일부 방법은 다른 방법보다 소리가 적기 때문입니다.

엄격한 과학에서 우리는 가설을 개발하고, 혼란스러운 변수를 식별하고, 가설 외부의 변수에 대한 제어를 개발하고, 테스트 방법을 계획하고, 분석 방법론을 계획하고, 테스트를 수행 / 데이터를 수집 한 다음 데이터를 분석합니다. 분석 방법은 테스트가 수행되기 전에 계획됩니다. 가설에 동의하지 않는 데이터 및 분석을 수용해야하기 때문에 이것은 가장 엄격한 것입니다. 흥미로운 것을 얻기 위해 메소드를 변경하는 것은 허용되지 않습니다. 연구 결과에 대한 새로운 가설은 모두 같은 과정을 거쳐야합니다.

의사 과학에서 우리는 종종 이미 수집 된 데이터를 가져옵니다. 결과에 편향을 쉽게 추가 할 수 있기 때문에 윤리적으로 사용하기가 더 어렵습니다. 그러나 윤리 분석가를위한 과학적 방법을 따르는 것이 여전히 가능합니다. 그래도 적절한 제어를 설정하기가 어려울 수 있으며 연구하고 주목해야합니다.

데이터 탐색은 과학을 기반으로하지 않습니다. 구체적인 가설은 없습니다. 혼란스러운 요소에 대한 사전 평가는 없습니다. 또한 사전 지식이나 모델링에 의해 결과가 오염 될 수 있고 유효성 검사에 사용할 새 데이터가 없기 때문에 동일한 데이터를 사용하여 분석을 되돌아 가서 다시 실행하기가 어렵습니다. 탐색 적 분석에서 발견 된 가능한 관계를 명확하게하기 위해 엄격한 과학 실험이 권장됩니다.

데이터 준설 또는 P- 해킹은 "분석가"가 예기치 않은 또는 알 수없는 답변을 찾기 위해 여러 테스트를 수행하거나 데이터를 조작하여 결과를 얻는 곳입니다. 결과는 단순한 우연 일 수도 있고, 변수를 혼동 한 결과 일 수도 있고, 의미있는 효과 크기 나 검정력을 갖지 않을 수도 있습니다.

각 문제에 대한 몇 가지 해결 방법이 있지만 해당 해결 방법을 신중하게 평가해야합니다.


1
나는 당신이 질문에 불필요한 소음을 추가하고 있다고 생각합니다. 그들이 사용 가능한 최상의 방법을 사용했다고 가정하십시오. 데이터는 수집 된 것이 아니라 통계 기관이 수집했기 때문에 데이터 수집을 제어 할 수 없었습니다. 유일한 차이점은 각 연구원이 얼마나 많은 데이터를 탐색했는지입니다. 그들 중 하나는 많이 탐험했고 다른 하나는 한 번만 탐험했습니다. 둘 다 동일한 데이터로 동일한 최종 모델을 얻습니다. 그들은 다른 추론을해야합니까? 그리고 그것이 추론에 어떤 영향 미쳐야합니까?
statslearner

이것은 추가 소음이 아닙니다. 수학은 수학입니다. 모델이 동일하면 동일합니다. 모형을 해석하는 방법은 문제에 포함되지 않은 다른 모든 변수에 따라 다릅니다. 다른 모든 맥락을 무시하고 설계 또는 실험을하면 답이 간단하며 두 모델 모두 수학적으로 동일하게 수행되며 과학적으로 약합니다.
Adam Sampson
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.