FPR (거짓 양성 비율) vs FDR (거짓 발견 률)


20

다음 인용문은 Storey & Tibshirani (2003) 의 유명한 유전체 연구 통계의 유의성에서 발췌 한 것입니다.

예를 들어, 오 탐지율 5 %는 연구에서 실제로 null 인 피처의 평균 5 %가 중요하다고 할 수 있음을 의미합니다. FDR (False Discovery rate)이 5 %라는 것은 중요하다고하는 모든 기능 중에서 5 %가 실제로 평균이 없음을 의미합니다.

누군가 간단한 숫자 또는 시각적 예를 사용하여 그 의미를 설명 할 수 있습니까? 그 의미를 이해하는 데 어려움을 겪고 있습니다. FDR 또는 FPR에 대한 다양한 게시물을 찾았지만 특정 비교가 이루어진 곳을 찾지 못했습니다.

이 분야의 전문가가 한 사람이 다른 사람보다 낫거나 둘 다 좋고 나빠진 상황을 설명 할 수 있다면 특히 좋습니다.


3
@mkt의 답변에 현상금, Naseer를 수여했습니다. 해당 답변으로 문제가 해결 된 경우 현상금 표시기 아래 왼쪽에있는 확인 표시를 클릭하여 수락 할 수도 있습니다.
gung-복직 모니카

답변:


29

이해를 돕기 위해 몇 가지 다른 방법으로 설명하겠습니다.

구체적인 예를 들어 봅시다. 당신은 사람들의 그룹에서 질병에 대한 테스트를하고 있습니다. 이제 몇 가지 용어를 정의 해 봅시다. 다음 각 항목에 대해 테스트를받은 개인을 말합니다.

진 양성 (TP) : 질병이있는 것으로 확인 됨

False positive (FP) : 질병이없는 것으로 질병이있는 것으로 확인 됨

완전 음성 (TN) : 질병이없는 것으로 확인 된 질병이없는 것

거짓 음성 (FN) : 질병이없는 것으로 확인 됨

시각적으로 이것은 일반적으로 혼동 행렬을 사용하여 표시됩니다 .

여기에 이미지 설명을 입력하십시오

위양성률 (FPR)이 질병을 가지고 있지 않지만 질병 (모든 FPS)이있는 것으로 확인 된 사람들의 수입니다 질병이없는 사람들의 총 개수로 나눈를 (포함 모든 FPS와 TN은) .

에프아르 자형=에프에프+

거짓 발견 율 (FDR)는 질병을 가지고 있지 않지만 질병 (모든 FPS)를 가진 것으로 확인 된 사람들의 수이며, 질병을 가진 것으로 확인 된 사람들의 총 개수로 나눈 (모든 FPS 역방향 채널을 포함 ).

에프아르 자형=에프에프+


차이점은 분모에 있습니다. 즉 오 탐지 수를 비교하는 것은 무엇입니까?

FPR은 당신에게 질병을 가진 것으로 확인 될 질병이없는 모든 사람의 비율을 말하고있다.

FDR은 당신에게 질병이없는 질병을 가진 것으로 확인 된 모든 사람의 비율을 말하고있다.

따라서 둘 다 유용하고 뚜렷한 실패 척도입니다. 상황과 TP, FP, TN 및 FN의 비율에 따라 서로에 대해 더 관심이있을 수 있습니다.


이제 이것에 몇 개의 숫자를 넣겠습니다. 질병에 대해 100 명을 측정했으며 다음과 같은 결과가 나타납니다.

진 양성 (TP) : 12

오 탐지 (FP) : 4

진정한 부정 (TN) : 76

거짓 부정 (FN) : 8

혼동 행렬을 사용하여이를 표시하려면 다음을 수행하십시오.

여기에 이미지 설명을 입력하십시오

그때,

에프아르 자형=에프에프+=44+76=480=0.05=5%

에프아르 자형=에프에프+=44+12=416=0.25=25%

다른 말로,

FPR은 질병을 앓지 않은 사람의 5 %가 질병을 앓고있는 것으로 확인되었다고 말합니다. FDR은 질병을 앓고있는 것으로 확인 된 사람들의 25 %가 실제로 질병을 가지고 있지 않다고 말합니다.


@amoeba의 의견 (위 예제의 숫자)을 기준으로 편집하십시오.

[Side note : Wikipedia에 따르면 FPR은 수학적으로 제 1 종 오류율과 동일하지만 하나는 일반적으로 우선 순위 가 설정 되고 다른 하나는 일반적으로 테스트의 성능을 측정하는 데 사용 되므로 개념적으로 구별되는 것으로 간주됩니다 . 이것은 중요하지만 여기서는 논의하지 않겠습니다.]


그리고 좀 더 완전성을 위해 :

분명히 FPR과 FDR은 혼동 행렬에서 4 가지 수량으로 계산할 수있는 유일한 관련 메트릭이 아닙니다. 서로 다른 상황에서 유용 할 수 있는 여러 가지 가능한 메트릭 중에서 상대적으로 자주 발생하는 두 가지 메트릭 은 다음과 같습니다.

민감성 이라고도 알려진 TPR (True Positive Rate) 은 질병에 걸린 것으로 확인 된 사람의 비율입니다.

아르 자형=+에프

특이성으로 도 알려진 True Negative Rate (TNR) 는 질병이없는 것으로 확인 된 질병이없는 사람의 비율입니다.

아르 자형=+에프


3
+1. FPR = 5 %가되도록 수치 예를 조정하는 것이 합리적 일 수 있습니다. p <0.05를 기준으로 사용하는 경우 (테스트의 크기가 올바른 것으로 가정) 때문입니다. 또는 p <0.01이면 1 %입니다. 이 연결을 지적하면 일부 독자에게 도움이 될 수 있습니다.
amoeba 말한다 Reinstate Monica

1
@amoeba 감사합니다. 좋은 생각입니다. 나중에 다시 시도하겠습니다.
mkt-Reinstate Monica

2

https://en.wikipedia.org/wiki/Confusion_matrix 의 테이블을 검사해야합니다 . FDR은 수평 인 동안 FPR은 수직으로 배치됩니다.

  • 귀무 가설이 사실이지만 FP를 거부하면 FP가 발생합니다.
  • FD는 중요한 것을 예측하지만 발생해서는 안되는 경우에 발생합니다.

나는 그것을 알고 있지만 나는 당신이 숫자와 시각화로 그 개념을 설명하여 매우 흥미로운 숫자를 지원하는 것과 같은 비교에 특히 관심이 있습니다.
李 慕
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.