의료 영상에서 출판 된 대부분의 작품이 왜 오 탐지를 줄이려고합니까?

20

의료 영상 처리에서 출판 된 작품의 대부분은 FPR (False Positive Rate)을 줄이려고하지만 실제로는 False Positive가 False Positive보다 더 위험합니다. 그 배후의 근거는 무엇입니까?

image-classification image-recognition

— 후 나르 아흐메드
소스

1

에서 en.wikipedia.org/wiki/Primum_non_nocere의 관점, 오탐 (false positive)도 드래곤이 제대로 지적하는 것이 절대 숫자의 차이를 고려하기 전에, 더 위험한 실패로 간주 될 수 있습니다.

— jpa

29

TL; DR : 질병은 드물기 때문에, 오 탐지의 절대 개수는 오 탐지의 절대 개수보다 훨씬 많습니다.

우리 시스템의 위양성 및 위음성 비율이 1 % (아주 좋았습니다!)이며 올해 새로운 암의 존재를 439.2 / 100,000 명 또는 인구의 0.5 %로 감지한다고 가정합니다. [ 출처 ]

암 없음, 탐지 없음 : 99.5 % x 99 % = 98.5 % (98.505 %)
암 없음, 검출 : 99.5 % x 1 % = 1.0 % (0.995 %)
암, 검출 : 0.5 % x 99 % = 0.5 % (0.495 %)
암, 검출 없음 : 0.5 % x 1 % = 0.005 %

따라서 우리는 우리에게 문제가 있음을 알 수 있습니다. 암에 걸린 사람, 암에 걸리지 않은 두 사람은 침습 수술, 화학 요법 또는 방사선 요법에 시달립니다.

현재의 암을 발견하지 못한 모든 사람들에게, 200 명의 사람들은 필요하지 않고 실제로 감당할 수없는 적극적으로 해로운 치료를받습니다.

— 용
소스

1

많은 스크리닝 응용 분야에서 발생률 (인구 10 만 명당 새로 진단 된 질병은 없음)은 수차로 훨씬 낮습니다. 0.5 %는 총 암 발생률이지만, 선별 프로그램은 특정 유형의 암을 대상으로합니다.

— cbeleites는

6

@cbeleites, 구체적인 예를 들어, 췌장 선암은 진행 단계에 도달 할 때까지 무증상이기 때문에 거의 항상 치명적입니다. 미국 전체 인구에 1 % 위양성 / 1 % 위음성 비율로 선별 검사를 실시하는 경우 약 3 백만 건이 발견되는데 그 중 46,000 명만이 실제로 암에 걸렸으며 1.5 %의 예측 값.

— 마크

2

의료 영상 ( 예 : fMRI)의 경우 단일 이미지가 많은 "복셀"로 구성되어 있으며, 각 이미지의 활성화는 가설로 간주된다는 사실로 인해 문제가 더욱 심화 될 수 있습니다 (예 : Zen 및 다중 비교 기술 참조). -이것이 OP가 말하는 것일 수도 있습니다.

— steeldriver

16

당신은 늑대를 외친 소년의 이야기를 알고 있습니까?

같은 생각입니다. 일부 분류 기가 허위 경보 (울프 울음)를 여러 번 반복하면 의료진이 경보를 끄거나 무시합니다.

"오, 이거 다시! NOPE!"

적어도 내가 연구 한 생물 공학 그룹에서는 의사가 잠재적 인 병리에 대해 경고 할 수있는 도구를 만드는 것이기 때문에 늑대 인간을 울리는 제품을 무시할 것이라고 말했기 때문에 FPR을 줄이는 데 중점을 둡니다. 너무 많이.

의사를 돕는 제품의 경우 농장에서 늑대를 잃어버린 것이 울고있는 늑대보다 나쁘다는 합법적 인 주장에도 불구하고 심리학에 호소해야합니다.

편집 : 오 탐지도 합법적 인 주장이 있습니다. 컴퓨터가 가끔 울음 소리를 낼 때 늑대가 계속 울면 (그리고 대부분의 참 긍정을 잡는 경우) 누군가가 아플 수 있습니다. 그들은 병원에 있습니다. 의사는 환자가 아플 수 있음을 알고 있습니다.

— 데이브
소스

7

요약 : 이 질문은 아마도 하나의 오탐이 하나의 오탐 보다 나쁘지 않은지 , 아마도 * 500 개의 오탐이 하나의 오탐으로 받아 들여질 수 있을지에 대한 것입니다.

* 응용 프로그램에 따라 다름

@Dragon의 답변을 조금 확장하겠습니다.

선별 이란 우리가 겉보기에 건강한 인구 중에서 질병을 찾고 있음을 의미합니다. @Dragon이 설명했듯이, 이들을 위해서는 FPR (또는 고감도)이 매우 낮아야합니다. 그렇지 않으면 실제 긍정보다 더 많은 오탐이 생깁니다. 즉, 긍정적 예측 가치 (진정 된 모든 긍정적 인 질병 중 #)는 용납 할 수 없을 정도로 낮을 것입니다.
진단 시스템에 대한 민감도 (TPR) 및 특이도 (TNR)는 측정이 용이합니다. 진정으로 (비) 해독 된 여러 사례를 취하고 올바르게 감지 된 사례의 비율을 측정합니다.
의사와 환자의 관점에서 OTOH는 예측 값 이 더 중요합니다 . 그것들은 감도와 특이성에 대한 "반대"이며 모든 긍정적 (부정적) 예측 중에서 어떤 분수가 올바른지 알려줍니다. 다시 말해, 검사 후 "질병"이라고 말한 후 환자가 실제로 질병에 걸릴 확률은 얼마입니까?
@Dragon이 보여 주듯이, 발생률 (또는 우리가 말하는 테스트에 따라 유병률)이 여기서 중요한 역할을합니다. 모든 종류의 선별 / 초기 암 진단 응용에서 발생률은 낮습니다.
이를 설명하기 위해 폐경 후 여성의 난소 암 검진은 일반 인구에서 0.04 %, 가족력이있는 고위험 여성에서 0.5 %, 종양 억제 유전자 BRCA1 및 2의 알려진 돌연변이가있다 [Buchen, L. 암 : 마크가 없습니다. 자연, 2011, 471, 428-432]
따라서 문제는 일반적으로 하나의 오탐이 하나의 오탐 보다 나쁘지는 않지만 99 %의 특이성 (1 % FPR) 및 95 %의 감도 (위의 링크 된 논문에서 가져온 숫자)는 각 오음에 대해 대략 500 개의 오 탐지를 의미합니다 .
참고로 초기 암 진단 자체는 암에 대한 마법 치료법이 아니라는 점을 명심하십시오. 예를 들어 유방암 검진 유방 조영술의 경우, 실제 양성 환자 의 3 ~ 13 %만이 실제로 검진의 혜택을받습니다 .
그래서 우리는 각각의 잘못된 반응의 수에 눈을 유지해야 혜택을 환자. 예를 들어 유방 조영술의 경우, 이러한 수치 와 함께 , 우리가 진정한 긍정적 (39-49 세 그룹)에게 혜택을주는 당 400-1800 개의 잘못된 긍정 범위에 있다고 추측합니다.
허위 음성 당 수백 개의 위양성 (및 선별 검사로 혜택을받는 환자 당 수백 또는 수천 개의 위양성)으로 상황이 "누락 된 암이 하나의 위양성 암 진단보다 나쁘다"는 것만 큼 명확하지 않습니다. 심리적, 심리적 (암 자체가 건강하지 않다는 걱정)에서부터 생검 (작은 수술이며 자체 진단과 같은 후속 진단)의 신체적 위험에 이르기까지 영향을 미칩니다. 위험). 하나의 오탐 (false positive)
의 영향이 적더라도 수백 개의 오탐 (false positive)을 고려해야하는 경우 해당 위험이 실질적으로 더해질 수 있습니다.

제안 된 글 : Gerd Gigerenzer : Risk Savvy : 올바른 결정을 내리는 방법 (2014).
그러나 진단 테스트를 유용하게 만드는 데 필요한 PPV 및 NPV는 응용 프로그램에 따라 크게 달라집니다.
설명 된 바와 같이, 초기 암 검출을위한 스크리닝에서, 초점은 일반적으로 PPV에 초점을두고 있습니다. 선별하지 않은 상태 유지. 헌혈에 대한 HIV 검사
OTOH 는 NPV에 중점을 둡니다 (즉, 혈액에 HIV가 없는지 확인). 그럼에도 불구하고, 2 차 및 3 차 단계에서, (거짓) 긍정적 HIV 검사 결과를 가진 사람들을 걱정하기 전에 추가 테스트를 적용함으로써 오 탐지가 감소됩니다.
마지막으로, 발생률이나 유병률이 일반적으로 위험도가 높지 않은 집단 (예 : 일부 감별 진단)을 선별 할 때처럼 심각하지 않은 의료 테스트 응용 프로그램도 있습니다.

— cbeleites는 모니카를 지원합니다
소스

1

이것은 약간 조밀합니다. 쉽게 다시 읽을 수 있도록 서식을 다시 지정할 수 있습니다. 좋은 답변처럼 보이지만 많은 시간을 들여 파기 어려운 곳입니다.

— 밥

3

데이터 과학 경험보다는 개인의 관점에서 볼 때, 오탐은 오음보다 환자의 삶의 질에 더 큰 영향을 미칩니다 (적어도 대부분의 의료 영상 처리 응용 프로그램에서 우리는 실험실 결과에 대해서는 이야기하지 않습니다) .

구체적인 예를 들어 보자 : 종양 선별 .

거짓 음성 은 초기 단계의 종양이 악성 암으로 성장하고 발전하는 데 더 많은 시간이 있음을 의미합니다. 전반적으로이 과정은 시간이 오래 걸리고 이후의 각 선별 검사는이를 탐지 할 확률이 높지만 현실적으로 환자의 장기적인 건강 상태는 악화됩니다.

또한 진단에는 항상 인간이 있습니다. 현재의 기술 단계에서 의료 이미지 처리는 는 대체물이 아닌 의료인 도움 을 주기 위한 것 입니다. 그것은 종종 인간이 간과 할 수있는 미묘한 조직의 병변이나 변화를 지적하기위한 것입니다. 의사가 진행성 종양을 간과 할 가능성은 없습니다. 이를 위해 이미지 처리가 필요하지 않습니다.

의학적 절차 측면에서, 다음 스크리닝 전에 종양이 작동하지 않으면, 초기 단계 종양을 제거하는 것 또는 성장할 시간이 조금 더 걸린 종양을 제거하는 것 사이에는 큰 차이가 없습니다. 제거되는 조직의 양은 많지만 수술 종류는 종종 동일합니다. (이는 환자가 정기적 인 건강 검진을 수행한다고 가정합니다.)

거짓 긍정 에는 질병과 직접 관련이없는 많은 의미가 있습니다.

추가 절차. 이미징 프로세스가 긍정적 인 결과를 얻은 후, 혈액 또는 조직이 추출되는 (생검) 더 많은 테스트가 수행됩니다. 객관적으로 말하면 환자의 신체가 손상되어 영상 결과를 확인할 수 있습니다.
무서움. 실험실 테스트에는 시간이 걸립니다. 영향을받은 사람은 종종 며칠, 때로는 몇 주 동안 불확실한 날씨를 겪거나 병변이 실제로 암이 아닌 경우가 있습니다. 그러한 잘못된 긍정을 경험 한 많은 사람들은이 사건을“외상 화”로 묘사하고 오랫동안 건강 관련 불안으로 고통 받고 있습니다.
시간 투자. 실험실 테스트 또는 유사한 검사를 통해 이미징 결과를 확인하는 경우 여러 번의 검사가 필요한 경우 환자와 의사는 시간을 투자해야합니다. 한 번의 검사만으로도 간호사, 의사 및 실험실 기술자를 포함한 여러 사람이 참여합니다. 의사가 만성적으로 과로 한 시간에는 가능하면 피해야합니다.
불필요한 약물. 최악의 경우 환자는 자신이 가지고 있지 않은 질병으로 치료를 받고 신체는 약물의 부작용으로 불필요한 부담을받습니다.
효과의 상실. 절차가 너무 많은 오 탐지 (다른 답변에서 설명 된)를 생성하면 의료인은 오 탐지 결과를 무시합니다.

이 위험-이익 평가는 오탐 (false negative)이 오탐 (false positive)보다 환자에 대한 위험이 적음을 나타냅니다. 따라서 오 탐지를 줄이는 우선 순위가 일반적으로 더 높습니다.

— 엘미
소스

1

임상의 시간은 소중합니다

의학 분야에서 임상의는 종종 발견하고 진단하려는 다양한 질병을 앓고 있으며 이는 시간이 많이 걸리는 과정입니다. 진단 결과를 신뢰할 수 없기 때문에 오 탐률이 낮은 도구 (비율이 낮더라도)가 유용하지 않습니다. 즉, 진단 할 때마다 검사해야합니다. 소프트웨어의 WebMD처럼 생각하십시오-모든 것이 암의 징후입니다!

임상의는 시간을 이중으로 확인하거나 진단을 다시 추측 할 필요가 없기 때문에 오탐을 나타내지 만 항상 진양을 나타내는 도구가 훨씬 유용합니다. 특정 진단에 걸린 사람으로 표시되면 작업이 완료된 것입니다. 그렇지 않은 경우, 강조 표시되지 않은 사람들은 어쨌든 추가 검사를받습니다.

여러 특성을 퍼지하는 도구보다 질병의 단일 특성까지도 정확하게 식별 할 수있는 도구를 사용하는 것이 좋습니다.

— 시력 3
소스

0

FAR (False Positive Rate)은 FAR (False Alarm Rate)이라고도합니다. False Positive Rate가 크면 의료 이미지 감지 시스템의 성능이 저하 될 수 있습니다. 위양성 (false positive)은 부정적인 결과를 받았을 때 검사에 대한 긍정적 결과를 얻는 곳입니다. 예를 들어 실제로 임신하지 않은 임신 테스트는 양성입니다.

— 에리카
소스

4

이것은 질문에 대답하지 않습니다. OP는 오 탐지의 의미를 묻지 않고 왜 오 탐지보다 더 중요하다고 생각합니까?

— Llewellyn

0

아마이 스레드의 모든 사람들은 이것이 베이지안 분석의 핵심에서 문제라는 것을 이미 알고 있습니다. 거짓 긍정을 방사선학의 문제로만 생각할 수있는 미래의 순례자들의 이익을 위해서만이 의견이 좀 더 일반적인 관점을 제공하기를 바랍니다.

— 리차드 카레 아가
소스