p- 값을 서로 비교하는 것은 어떤 의미가 있습니까?


20

나는 각각 샘플을 포함하는 두 집단 (남성과 여성)이 있습니다. 각 샘플마다 두 가지 속성 A & B가 있습니다 (1 학년 평균 점수 및 SAT 점수). 나는 A와 B에 대해 개별적으로 t- 검정을 사용했습니다. 둘 다 두 그룹 사이에 중요한 차이점을 발견했습니다. 와 와 B .1000p=0.008p=0.002

재산 B가 재산 A보다 더 잘 구별된다고 주장하는 것이 괜찮습니까? 아니면 t- 검정이 단지 예 또는 아니오 (중요하거나 중요하지 않은) 측정입니까?

업데이트 : 여기의 의견과 Wikipedia 에서 읽은 내용 따르면 대답은 의미가없는 p 값을 삭제하고 효과 크기를 보고해야한다고 생각합니다 . 이견있는 사람?


+ 나는 내가 영어를 모국어로 사용하는 사람이 아니라는 것을 용서해주세요 :)
Dov

문제 없음 : 내가 작성한 (사소한) 수정 내용이 의미있는 방식으로 질문을 변경했다고 생각되면 자유롭게 수정하십시오.
whuber

측정 한 결과는 무엇입니까? (즉, A / not A 또는 B / not B에 의해 정의 된 그룹들 사이에 다른 점은 무엇입니까?) 1000 개 샘플 모두에서 측정됩니까, 아니면 누락 되었습니까?
손님

3
두 가지 다른 효과 크기 또는 두 가지 다른 효과 크기에 대한 신뢰 구간을보고하는 것이 좋습니다. 두 데이터 세트 각각의 결과가 동일하면 해석하기가 더 쉬울 것입니다.
피터 엘리스

2
산림 플롯을 사용하면 통계적 유의성 효과 크기를 매우 편리 하게 표시 할 수 있습니다 ! 95 % CI를 제시한다는 것은 2 대신 4 개의 숫자를 사용한다는 것을 의미하지만 모든 사람이 암시 하듯이 실험을 비교하는 데 필요한 정보의 범위를 충분히 나타냅니다.
AdamO

답변:


20

많은 사람들은 값이 중요하거나 ( p < α ) 그렇지 않을 수 있으며, 따라서 두 p- 값 을 서로 비교하는 것은 합리적이지 않다고 주장합니다 . 이것은 잘못이다. 어떤 경우에는 그렇습니다.pp<αp

특별한 경우 직접 비교할 수 있다는 것은 의심의 여지가 없습니다 . 표본 크기가 고정 된 경우 ( n = 1000 ), p- 값t- 값 과 단조 적으로 관련되며 , 이는 코헨의 d 로 측정 된 효과 크기와 단조로 관련됩니다 . 구체적으로 d = 2 t / pn=1000ptd . 이 방법은 당신의 것을P는당신이 확인하는 경우 것일 수 -values는 효과 크기에 일대일로 대응하고,P는속성 A의 - 값은 속성 B에 대한보다 큰, 다음의 효과 크기가 작 재산 B보다.d=2t/npp

나는 이것이 당신의 질문에 대답한다고 생각합니다.

몇 가지 추가 사항 :

  1. 샘플 크기 이 고정되어 있는 경우에만 해당 됩니다. 하나의 표본 크기를 가진 한 실험에서 특성 A에 대해 p = 0.008 을 얻고 다른 표본 크기를 가진 다른 실험에서 특성 B에 대해 p = 0.002 를 얻으면 비교하기가 더 어렵습니다.np=0.008p=0.002

    • 문제가 구체적으로 모집단에서 A 또는 B가 더 잘 구별되는지 여부 (즉, A 또는 B 값을보고 성별을 얼마나 잘 예측할 수 있는가) 인 경우 효과 크기를 검토해야합니다. 간단한 경우, n을 아는 것만으로도 효과 크기를 계산할 수 있습니다.pn

    • 질문이 더 모호한 경우 : 어떤 실험이 null에 대해 더 많은 "증거"를 제공합니까? (이것은 예를 들어 A = B 인 경우에 의미가있을 수 있습니다)-문제는 복잡하고 논쟁의 여지가 있지만, 정의 의한 값 은 널에 대한 증거의 스칼라 요약이므로 p- 값 이 낮을 것입니다 , 표본 크기가 다른 경우에도 증거가 강해집니다.pp

  2. B의 효과 크기가 A의 효과 크기보다 크다고해서 이것이 크게 크다는 것은 아닙니다 . 그러한 주장을하려면 A와 B를 직접 비교해야합니다.

  3. 외에도 효과 크기와 신뢰 구간을보고 (및 해석)하는 것이 좋습니다 .p


3
단조 성과 좋은 최종 3 점에 대한 좋은 점. 이제, "당신은 확신 할 수 있습니다"진술 : 샘플에는 충분하지만 "상당히 그렇게"? (즉, 인구에 대한 신뢰할 수있는 의미가 있는가?) 당신은 # 2에서이 문제를 간단히 설명했습니다. 이것에 대한 완전한 치료는 환영받을 것입니다. 건배 ~
rolando2

4
이것은 옳지 만,이 경우에만 반드시 옳다는 것을 분명히하려고 노력했습니다 (이 점에도 유의하십시오). Michelle은 일반적으로 p- 값을 이런 식으로 사용해서는 안된다는 가치있는 지적을했다고 생각합니다.
궁 - 분석 재개 모니카

1
(-1)이 글의 본문은 정확하지만 개회 문장 ( "많은 사람들은 ... 두 을 서로 비교하는 것은 이치에 맞지 않습니다 ." 사실 일반적인 조언으로 잘못 해석되어 실제로는 여기와 같은 특별한 경우에만 적용됩니다. p
Andrew M

1
@AndrewM 아마도. 내 답변의 시작 부분을 편집했습니다. 지금 더 좋아하는지보십시오.
amoeba는 Reinstate Monica가

0

이 질문에 대해 완전히 다른 답변을 얻었으므로 방금 저를 공감 한 사람 덕분에 원래의 답변 이이 관점에서 올바르지 않으므로 삭제했습니다.

"나의 연구에서 A 또는 B가 더 나은 차별 자 였는가"라는 질문만을 다루는이 질문의 맥락에서, 우리는 표본이 아닌 센서스를 다루고 있습니다. 따라서 p- 값을 생성하는 데 사용되는 통계와 같은 추론 통계를 사용하는 것은 관련이 없습니다. 추론 통계는 표본에서 얻은 추정치에서 모집단 추정치를 추론하는 데 사용됩니다. 우리가 인구를 일반화하고 싶지 않다면 그 방법은 필요하지 않습니다. 센서스에서 누락 된 값에 대해서는 몇 가지 특정 문제가 있지만이 상황에서는 관련이 없습니다.

모집단에서 결과를 얻을 확률은 없습니다. 우리는 우리가 얻은 결과를 얻었습니다. 따라서 결과의 확률은 100 %입니다. 신뢰 구간을 구성 할 필요가 없습니다. 표본에 대한 점 추정치는 정확합니다. 우리는 단순히 아무것도 추정 할 필요가 없습니다.

"내가 가지고있는 데이터로 어떤 변수가 더 잘 작동했는지"와 같은 특정한 경우, 간단한 요약 형식으로 결과를 살펴보면됩니다. 상자 그림과 같은 그래프 일 수도 있습니다.


-1

p에 차이가 있지만 그 차이가 무엇을 의미하는지 불분명합니다 (크고 작고 중요합니까?).

부트 스트랩을 사용하십시오.

데이터에서 (대체)를 선택하고, 테스트를 다시 실행하고, p의 차이 (p_a-p_b)를 계산하고, 100-200 회 반복

델타 p의 일부가 <0인지 확인하십시오 (A의 p는 B의 p보다 낮다는 의미).

참고 :이 작업을 보았지만 전문가는 아닙니다.


1
이 답변은 p- 값 을 비교하는 한 가지 방법을 설명 하지만 원래의 질문은 답이 남아 있지 않은 것 같습니다. 절차가 의미가 있고 결과를 어떻게 해석합니까?
whuber

-1

댓글이 너무 길어서 답변을 추가했습니다!

Michelle은 좋은 반응을 보였지만 많은 의견은 p- 값에 관한 일반적인 토론을 보여줍니다. 기본 아이디어는 다음과 같습니다.

1) p- 값이 작다고해서 결과가 중요하다는 의미는 아닙니다. 그것은 단지 극단적 인 결과를 얻을 가능성이 적다는 것을 의미합니다. 유의성은 선택한 유의 수준 (테스트를 실행하기 전에 선택)을 기반으로하는 이진 결과입니다.

2) 효과 크기 (종종 표준 편차 #로 표준화 됨)는 두 숫자가 "얼마나 다른지"를 정량화하는 좋은 방법입니다. 따라서 수량 A의 효과 크기가 표준 편차 0.8 개이고 수량 B의 효과 크기가 표준 편차의 크기 인 경우 수량 B의 경우보다 수량 A의 두 그룹간에 차이가 더 크다고 말할 수 있습니다. :

.2 표준 편차 = "작은"효과

.5 표준 편차 = "중간"효과

.8 표준 편차 = "큰"효과


1
그러나 샘플 크기가 고정되어 있으면 p- 값은 효과 크기와 직접 단조 적으로 관련됩니다!
amoeba 말한다 Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.