선택한 가양 성 / 거짓 음수 오류율과 기본 비용 비율을 엄격하게 정당화하는 방법은 무엇입니까?


12

문맥

사회 과학자 및 통계 학자 그룹 ( Benjamin et al., 2017 )은 최근 "통계적 유의성"을 결정하기위한 임계 값으로 사용 된 전형적인 위양성 비율 ( = .05)을보다 보수적 인 임계 값으로 조정해야 한다고 제안했습니다. ( = .005). 경쟁하는 사회 과학자와 통계 학자 그룹 ( Lakens et al., 2018 )은이 또는 임의의 다른 선택된 임계 값의 사용에 반대하여 응답했습니다. 다음은 Lakens et al. 내 질문의 주제를 설명하는 데 도움이되는 (p. 16) :ααα

알파 수준은 의사 결정 이론을 사용하여 유틸리티 기능과 비용 및 이점을 비교하여 결정됩니다. 이 비용 편익 분석 (따라서 알파 수준)은 획득하기 어려운 샘플에서 데이터를 수집하는 것과 비교하여 기존의 대규모 데이터 세트를 분석 할 때 다릅니다. 과학은 다양하며 과학자들이 사용하기로 결정한 알파 수준을 정당화하는 것은 과학자의 몫입니다. ... 연구는 휴리스틱과 임의의 담요 임계 값이 아니라 엄격한 과학 원칙에 따라 안내되어야합니다.

질문

Lakens et al.처럼 "엄밀한 과학의 원칙에 따라"선택된 방식으로 선택한 알파를 정당화하는 방법에 대해 궁금합니다. 대부분의 사회 과학 상황에서 (즉, 최적화와 같이보다 구체적인 품질, 예를 들어 이익과 같은 구체적인 사례가 아닌 경우)을 제안합니까?

Lakens et al.이 유포 된 후, 연구원들이이 결정을 내리는 데 도움을주기 위해 온라인 계산기가 돌아 가기 시작했습니다. 그것들을 사용할 때 연구원들은 위양성 및 위음성 오류의 "비용 비율"을 지정해야합니다. 이 계산기는하지만, 여기에 제안, 이러한 비용의 비율을 결정하는 정량적 추측-많은 작업을 포함 할 수있다 :

일부 오류 비용은 금전적 용어 (직접 비용)로 쉽게 수량화 할 수 있지만 다른 오류 비용은 간접 비용으로 미달하기가 어렵습니다. ... 정량화하기는 어렵지만 숫자를 넣으려고 노력해야합니다.

예를 들어 Lakens et al. 알파를 정당화하는 데 고려할 수있는 요소로 도달하기 어려운 샘플을 연구하는 것이 좋습니다. 샘플이 얼마나 도달하기 어려운지, 그리고 그에 따라 알파 선택을 조정하는 방법을 여전히 추측하고있는 것 같습니다. 또 다른 예로서, 잘못된 추론에 전제 된 연구를 추구하기 위해 다른 사람들이 얼마나 많은 시간과 돈을 투자 할 것인지에 대해 거짓 양성 출판 비용을 정량화하는 것이 어려워 보일 것입니다.

이 비용 비율을 결정하는 것이 주관적인 최고의 추측을 만드는 문제라면, 이러한 결정이 (이윤과 같은 것을 최적화하는 것 이외의) 결정이 "정당화"될 수 있는지 궁금합니다. 즉, 샘플링, 트레이드 오프, 영향 등에 대한 가정을 벗어난 방식으로 존재 하는가? 이런 식으로, 거짓 양성 / 거짓 음성 오류의 비용 비율을 결정하는 것은 저에게 베이지안 추론에서 이전을 선택하는 것과 비슷한 것으로 보입니다 .- 다소 주관적 일 수 있고 결정에 영향을 미칠 수있는 결정입니다. 나는 그것이 합리적인 비교인지 확실하지 않지만.

요약

내 질문을 구체적으로 만들려면 :

  1. 대부분의 사회 과학 상황에서 가양 성 /가 음성 비율과 비용 비율을 "엄격하게"정당화 할 수 있습니까?
  2. 그렇다면, 이러한 분석적 선택을 정당화하기 위해 따를 수있는 일반화 가능한 원칙은 무엇입니까 (그리고 아마도 그 중 하나 또는 두 개가 실제로 적용될 수 있습니다)
  3. 그렇지 않다면, 베이지안 사전 선정과 유사하게 비용 비율을 선택할 때의 잠재적 주관성에 대한 비유가 합리적인가?

참고 문헌

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 7 월 22 일). 통계적 유의성을 재정의하십시오. psyarxiv.com/mky9j에서 검색

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 1 월 15 일). 당신의 알파를 정당화하십시오. psyarxiv.com/9s3y6에서 검색 함


4
"객관적으로 정당화"하는 방법을 정의 할 수 있습니까? 유형 I 오류 확률은 연구자이다 선호도 등입니다 ... 선험적 유형 II 오류 확률. 선호하는 연구 의제, 선호하는 연구 협력자 또는 자금 지원자, 또는 선호하는 연구 조교 훈련 및 멘토링 접근 방식은 어떤 방식으로 연구원이 "객관적으로 정당화"할 것인가?
Alexis

1
단순한 선호 이상으로 객관적으로 정당화됩니다. Lakens et al., 논문은 현재 짧은 "JYA"[Justify Your Alpha] 제목으로 배포되고 있으며 위 인용문을 바탕으로 한 그들의 주장에 대한 나의 독서는 이전의 선호도는 아닙니다. 분명히하기 위해 : 선택한 Type I / II 오류율을 객관적으로 정당화 할 수 있다는 주장을 반드시 제기하지는 않습니다. 오히려 Lakens et al. 당신이 할 수 있다고 제안하고, 그 경우라면 어떻게 할 것인지 이해할 수 없습니다.
jsakaluk

3
Lakens et al.의 인용문에서 "객관적으로"라는 단어는 보이지 않습니다. 그들은 실제로 종이에 그것을 사용합니까? 그렇다면 더 구체적인 문맥을 제공하기 위해 다른 인용문을 추가 할 수 있습니까? 그렇지 않다면 "Lakens et al.이 제안한 것처럼 객관적으로 선택된 알파를 정당화하는 것"과 같은 것을 말할 수 있는지 확신 할 수 없습니다.
amoeba는 Reinstate Monica가

2
게시물을 업데이트했는데 이제 "객관성"이 제거되었습니다. 논증을 잘못 특성화하려는 의도는 아니었지만 독자가 내가 부주의하게 쓴다고 생각하는지 이해할 수 있습니다. Lakens et al. 않는 내 질문에 확실한 각주 지금 그래서, "과학적인 엄격함의 원리에 의해 안내"의 설명을 사용합니다. 그러나 나는 그것이 무엇을 의미하는지 궁금해하고있다. 휴리스틱보다 더 엄격한 추측이 어떻게 필요합니까? 차이가 나면 과학적 현실주의자가 알파에 대해 "과학적으로 엄격한"타당성의 표준에 어떻게 도달 할 수 있는지 특히 궁금합니다.
jsakaluk

2
다시 말하지만 그것은 내 용어가 아니며, 내 질문의 일부는 Lakens 등이 말하지 않은 제약 조건 내에서 그 용어가 의미 할 수있는 것을 이해하는 데 도움이되는 답변을 얻는 것을 목표로합니다-예를 들어 일반화 된 원칙을 요구합니다. 평균 (즉, 휴리스틱이 아니라 임의의 임계 값이 아님). "과학적으로 엄격한 타당성"에 대한 여러 가지 정의를 염두에두고 다른 생성 할 수 있으며 비 휴리스틱 / 임의적 제약을 충족시킬 수 있다면 읽어 보시기 바랍니다. α
jsakaluk

답변:


1

(트위터에 게시되었지만 여기에 다시 게시) 대답에 대한 나의 시도 : 정당화가 "순전히"객관적 일 수는 없다고 생각하지만, 합리적 / 임시적 근거에 근거 할 수있는 기준에 근거 할 수 있습니다. RSS는 특정 유형의 연구에서 p <.005를 정당화 할 수있는 방법의 예라고 생각하지만, 다른 알파가 <.005 (보다 높거나 낮음)보다 더 최적 인 다른 상황이 있다고 생각합니다. 알파의 실현 가능성과 연구의 목적 예를 들어 참가자가 5,000 명이고 관심 효과의 가장 작은 크기가 .10 인 경우 p <.001을 사용하고 90 %의 힘 (수는 모두 구성됨)을 사용할 수 있습니다. 연구 라인의 초기 "개념 증명"으로. N = 100, p <.10, 90 % 전력,


1

나는 최근에 같은 질문에 대해 많이 생각해 왔으며, 심리학의 다른 많은 사람들도 마찬가지라고 생각합니다.

먼저, 각각의 질문은 선택이 객관적으로 대 객관적으로 이루어 졌는지 여부와 관련이 있지만 (여기에서 언급했듯이) 객관 대 주관적 선택이 무엇인지에 대해 충분히 설명하지 않았습니다.

과학에서 "객관적"및 "주관적"레이블의 일반적인 사용법으로 포장 된 다양한 값을 풀고있는 Gelman & Hennig 2015 논문에 관심이있을 것 입니다. 그들의 공식화에서,“객관적인”은 투명성, 합의, 공정성 및 관찰 가능한 현실에 대한 대응의 가치와 관련이있는 반면,“주관적인”은 여러 관점과 맥락 의존성의 가치와 관련이있다.

질문 3과 관련하여 베이지안 관점에서 확률은 세계에 대한 불확실성을 정량화하는 것으로 정의됩니다. 내가 이해 한 바에 따르면,“주제주의 베이지안”(확률은 개별적 신념 상태를 반영한다)과“객관주의 베이지안”생각의 학교 (확률은 합의 타당성을 반영한다)에 명백한 긴장이있다. 객관주의 학교에서는 합의와 비교하고 확인할 수있는 투명한 방식으로 이전 분포 (및 모델)를 정당화하는 데 더 중점을 두지 만 모델의 선택은 상황에 따라 다르다 (즉, 상황에 따라 다름) 특정 문제에 대한 합의 지식의 상태에 따라 다름).

잦은 개념에서 확률은 무한 독립 복제가 주어지면 이벤트가 발생할 횟수를 반영합니다. Neyman-Pearson 프레임 워크 내에서 정확한 대안 가설과 정확한 알파를 규정하고 정확한 널 (null) 또는 정확한 대안 (수집 효과가 규정 된 것과 정확히 일치 함)을 받아 들인 다음 데이터를보고합니다. 오류가 발생한 장기 빈도.

이 프레임 워크 내에서 모집단 효과 크기의 정확한 점 추정치는 거의 없지만 그럴듯한 값의 범위가 있습니다. 따라서 주어진 알파에 대해 조건부로, 우리는 Type 2 오류율의 정확한 추정치가 아니라 그럴듯한 Type 2 오류율 범위를 갖습니다. 마찬가지로, 나는 일반적으로 유형 1 오류 또는 유형 2 오류의 비용과 이점이 실제로 어떤 것인지 정확히 알지 못한다는 일반적인 견해에 동의합니다. 우리는 종종 우리의 가설이 무엇인지에 대한 정보가 매우 불완전하고이 가설을 받아들이는 것과 거부하는 것의 상대적 비용과 이점이 무엇인지에 대한 정보가 훨씬 적은 상황에 처하게됩니다.

당신의 질문에 :

  1. 대부분의 사회 과학 상황에서 가양 성 /가 음성 비율과 비용 비율을 객관적으로 정당화 할 수 있습니까?

나는 정당화가 투명하고 합의와 비교할 수 있고 공정 할 수 있으며 현실에 상응 할 수 있다고 생각한다 (비용과 이익에 관해 우리가 이용할 수있는 최상의 정보를 사용하는 한).

그러나, 주어진 문제에 대해 알파를 설정하는 방법에 대한 여러 가지 유효한 관점이있을 수 있으며, 적절한 알파를 구성하는 것이 의미에 따라 상황에 따라 달라질 수 있다는 점에서 그러한 정당성이 주관적이라고 생각합니다.

예를 들어, 최근에는 문헌의 많은 효과가 타입 M 또는 타입 S 오류를 반영한다는 것이 명백 해졌다. 또한 복제 연구에서 정확히 0의 효과가 없다는 증거를 제공 할 수있는 정도까지 유형 1 오류를 반영 할 수 있습니다.

이 관찰과 관련하여, 확실하게 청구에 대한 p- 값 임계 값을 동일하게 유지하거나 더 엄격하게해야한다는 합의가 이루어지고 있습니다 (즉, 알파의 담요 증가를 .10 또는 .20으로 주장하는 사람은 아무도 없습니다) . 마찬가지로 p 값을 게시 기준으로 사용해서는 안된다는 합의가 이루어지고 있습니다 (예 : 등록 된 보고서 형식).

나에게 이것은 일종의 "객관적인"정보원을 반영한다. 즉, 내 독서에는 거짓 주장이 현장에 비용이 많이 든다는 합의가 증가하고있다 (이러한 비용에 1 달러를 넣을 수는 없더라도). 필자가 읽은 바에 따르면 p- 값 임계 값을 충족하지 못하는 것이 현장에 극적인 비용이라는 명확한 합의는 없습니다. 비용이있는 경우 p- 값 임계 값을 충족하지 못하면 견적이 출판 된 용지로 작성되는지 여부에 영향을 미치지 않으면 완화 될 수 있습니다.

  1. 그렇다면, 이러한 분석적 선택을 정당화하기 위해 따를 수있는 일반화 가능한 원칙은 무엇입니까 (그리고 아마도 그 중 하나 또는 두 개가 실제로 적용될 수 있습니다)

확실하지는 않지만 특정 상황에서 여러 종류의 분석 선택의 비용과 이점에 대한 투명한 (지역 또는 세계적) 합의 판단에 근거하여 결정을 내려야한다는 원칙에 의존합니다. 이러한 비용과 혜택에 대한 비참한 정보의 얼굴.

  1. 그렇지 않다면, 베이지안 사전 선정과 유사하게 비용 비율을 선택할 때의 잠재적 주관성에 대한 비유가 합리적인가?

그렇습니다. 빈번주의와 베이지안 전통에 걸쳐 통계 모델의 여러 측면에서 객관성 (즉, 투명성, 합의, 공정성 및 관찰 가능한 현실에 대한 대응 성)뿐만 아니라 주관성 (즉, 다중 관점과 상황 의존성)의 여지가 있습니다. 그리고 그 모델이 어떻게 사용되는지 (선택된 사전, 선택된 가능성, 선택된 결정 임계 값 등).


이것은 좋은 대답입니다. 내가 확실하지 않은 한 가지는 서신에 대한 주장입니다. 만약 우리가이 용어를 같은 방식으로 이해한다면 (실제 서신 이론의 관점에서 생각하고 있습니다), 실제로, 우리가 Type의 비용에 대한 정확한 아이디어를 가지고 있지 않다면 서신이 흔들릴 수있는 것처럼 들립니다. I / II 오류 대신, 일관성 (이러한 초기 가정, 나머지 숫자는 "합리적"임) 또는 실용주의에 대한 더 나은 주장이있는 것처럼 들립니다 (유형 I / II 오류 비용에 대한 우리의 추측은 연구 계획에 유용한 소설 임).
jsakaluk

어쩌면 나는 "정의"를 대응 / 현실적 관점과 결혼하기 위해 너무 열심히 노력하고 있으며, 이러한 다른 이해 방식에서 유형 I / II 오류율은 "정의 된"방식으로 선택 될 수 있습니까?
jsakaluk

이 아이디어를 알려 주셔서 감사합니다. 어떤 맥락에서든 미래의 비용과 혜택이 무엇인지에 대한 좋은 정보가 있거나 정보가 매우 부족할 수 있습니다. 매우 거친 의미에서, 위양성 (p <임계 값, 실제 효과는 정확히 0 임)이 중요도 임계 값을 충족하지 못하는 경우보다 필드에 더 해로울 수 있다는 의견에 대한 합의가 높아지고 있습니다 (그러나 어쨌든 추정치를 게시). 특정 지역 상황에서는 유의 임계 값을 충족시키지 못하면 더 심각한 비용이 발생할 수 있습니다.
효모

접선으로,“알파”와“유형 2 오류”의 개념은 분석가가 두 가지 정확한 가설을 지정하고 절차가 끝날 때 하나를 받아들이겠다고 약속 한 NP 프레임 워크에만 존재합니다. 그러나 일반적인 관행에서, 분석가들은 불확실한 힘으로 중요하지 않은 추정치에 기초하여 널을 받아들이지 말아야한다는 경고를받습니다. 이는 널을 수용하지 않고 "유형 2 오류"가없는 피셔 스타일 해석으로 되돌아갑니다.
효모

1
"합의"에 대한 귀하의 설명 뒤에있는 소셜 네트워크, 사회 계층 및 사회적 상호 작용이 어떻게 든 그들 모두의 기초가되는 주관적인 신념과 가치와 이혼 한 것이 흥미 롭습니다.
Alexis
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.