다양한 잠재 고객에게 고급 통계를 도입하기위한 전략


26

나는 의학, 사회 과학 및 교육과 같은 분야의 비 통계 학자와 주로 일합니다.

대학원생과의 상담, 기사의 연구자 지원 또는 저널의 기사 검토 등, 누군가 (클라이언트, 저자, 논문위원회, 저널 편집자)가 완전히 알려진 경우 비교적 잘 알려진 기술을 사용하려는 경우가 종종 있습니다 부적절하거나 더 좋지만 알려지지 않은 방법이 존재하는 경우 종종 대안 기술을 설명하지만 "모든 사람이 다른 방식으로한다"는 말을들을 수 있습니다.

다른 사람들이 이런 종류의 어려움을 처리하는 방법에 관심이 있습니다.

추가 사항

@MichaelChernick는 몇 가지 이야기를 공유 할 수 있다고 제안 했으므로

현재 나는 이전 논문을 복제하고 하나의 독립 변수를 추가하여 도움이되는지 확인하는 한 사람과 협력하고 있습니다. 이전 논문은 솔직히 끔찍합니다. 종속 데이터를 마치 독립적 인 것처럼 취급합니다. 그것은 엄청나게 과적이며 다른 문제들도 있습니다. 그러나 그 (나의 고객)는 이전 버전을 논문으로 제출했으며 학위를 받았을뿐만 아니라 연구에 대한 찬사를 받았습니다.

여러 번 나는 사람들이 변수를 이분법 화하지 않도록 설득하려고 노력했다. 이것은 의학에서 매우 자주 나타납니다. 나는 이분법 화 (즉) 출생 체중을 낮고 정상으로 (보통 2,500 g) 의미하는 것은 2,499 g의 아기를 1,400 g의 아기처럼 대우한다는 것을 의미합니다. 2,501 그램의 아기를 아주 다르게 대우합니다 임상의는 이것이 바보라고 동의합니다. 그런 다음 그렇게하십시오.

나는 오래 전에 대학원생이 있었는데, 그위원회 클러스터 분석을 주장했다 . 학생은 그 방법을 이해하지 못했고, 그 방법은 유용한 질문에 대답하지 못했지만, 그것이위원회가 원했던 것입니다.

통계 그래픽의 전체 분야는 많은 사람들에게 "이것이 할아버지가 한 일입니다"라고 충분합니다.

그런 다음 버튼을 누르는 것처럼 보이는 사람들이 있습니다. 전체 설문지를 작성하고 분석 한 한 프레젠테이션 (내가 도와 준 사람이 아니라)을 기억합니다. 그녀가 포함시킨 변수 중 하나는 ID 번호였습니다!


6
Peter, Meta는 이 사이트에 대한 질문 입니다. "커뮤니티 위키"상태에 대해 생각했을 수도 있습니다. 이는 객관적으로 최상의 답변을 얻지 못할 수도있는 유용하고 흥미로운 질문을위한 것입니다 (또는 전혀 대답하기 위해 공동 노력이 필요할 수도 있음). 따라서 귀하의 제안을 CW 요청으로 해석하고 구현했습니다.
whuber

1
이분법에 대한 간단한 참고 사항 : 실제로 이것은 "조금"통계를 아는 사람들의 잘못된 직감이라고 생각합니다. 당신이 말하는 분야에서 나는 의사 결정을 중심으로 많은 분석이 이루어질 것이라고 상상할 것입니다 (예를 들어, 질병 X 또는 Y에 대한 치료를 시작해야합니까?). 이것은 이분법이며 종종 유용한 이분법입니다. 변수 수가 적은 경우 적절한 의사 결정 분석 또는 가설 검정이이를 모방 할 수 있습니다. "x> 10이 옵션 1을 취하면 옵션 2를 취합니다."
chanceislogic

1
또한 이분법 화 된 변수에 기반한 분석은 컴퓨터에 액세스 할 수없는 경우 매우 쉽게 기억할 수 있습니다.
chanceislogic

2
심리학에서 사람들은 회귀가 아닌 분산 분석을 사용하기 때문에 종종 이분법 화 또는 정량화합니다. 이것은 나를 미치게한다. Vanderbilt 통계 wiki biostat.mc.vanderbilt.edu/wiki/Main 어딘가에 이분법에 의한 끔찍한 피해에 대한 훌륭한 데모가 있습니다. 그러나 불행히도 그것을 찾을 수없는 것 같습니다. 어쨌든 있다고 생각합니다. 내가 기회를 얻었을 때
항상 주목

2
보험 업계에서의 제한된 경험을 통해 특정 예측 모델이 개발되면 자체 모델의 수명이 있으며 모델이 된 후에도 몇 년 동안 계속 업데이트됩니다 (계수 업데이트). 구식. 예를 들어, 일부 사람들의 요율이 갑자기 높아질 수 있기 때문에 건강 보험 정책 요율을 설정하는 구 모델을 개선하는 것은 큰 문제입니다. 새로운 모델은 규제 기관 등에 정당화되어야합니다.
RobertF

답변:


16

까다로운 질문입니다!

첫째, 왜 이런 일이 발생하는지에 대한 생각. 나는 않습니다 (또는 적어도 지역에서 일 해야한다 ) 통계 광범위하게 사용하지만, 어디 대부분의 실무자는 통계 전문가가 아니다. 결과적으로 "나는 벡터를 엑셀의 t- 검정 함수에 넣었고이 숫자는 빠졌다. 따라서 내 논문은 통계에 의해 뒷받침된다"는 것을 알 수있다.

이 일이 발생하는 주된 이유는 통계 지식이 부족하기 때문입니다. 검토 자와 논문위원회가 통계적 기술에 대해 최신 정보를 얻지 못하면 "비 전통적인"것을 사용하는 것이 타당합니다. 예를 들어 논문에서 분포 모양을 보여주기 위해 상자 그림 대신 바이올린 그림을 사용하기로 결정했습니다. 이 기법을 사용하려면 논문에 광범위한 문서가 필요 했고, 본문의 설명과 소스 자료에 대한 언급에도 불구하고 모든 위원회 위원들이이 이상한 음모가 무엇을 의미하는지 알고 싶어하는 내 방어에 대한 오랜 논의가 필요했습니다. . 방금 상자 그림을 사용 했습니까 (엄격히 덜 표시합니다) 이 경우 정보를 제공하고 배포판이 멀티 모달 인 경우 배포판의 모양에 대해 뷰어를 쉽게 속일 수 있습니다.

요점은 통계 이외의 분야에서 실무자들은 어려운 선택에 직면 해 있다는 것이다. 우리는 올바른 방법 을 읽고 사용할 수 있다. 또는 우리는 흐름을 따라 가고 종이와 논문에 도장을 찍고 부정확하지만 기존의 방법을 계속 사용할 수 있습니다.

이제 질문에 대답하십시오.

올바른 방법을 사용하지 않으면 발생하는 결과를 강조하는 것이 좋은 방법이라고 생각합니다. 이것은 다음을 수반 할 수 있습니다 :

  • 해당 분야의 누군가가 추론이 좋지 않은 결과를 경험 한 방법에 대한 실제 사례를 제공합니다. 일부 필드에서는 다른 필드보다 쉽습니다. 경력이 손상된 사례가 특히 좋습니다.

  • 부정확 한 분석을 수행하면 결과가 실제 세계로 전달 될 가능성이 거의없는 상황에서 해를 입을 수있는 상황에 처할 수 있다고 설명합니다 (예 : 인공 지능 시스템 프로토 타입이 경쟁 업체보다 통계적으로 나아 보이면 내 분야에서 실제로는 마찬가지로, 6 개월 동안 전체 구현을 위해 보내는 것은 정말 나쁜 생각입니다.

  • 사용자에게 많은 시간을 절약 할 수있는 기술을 선택하십시오. 그들이 기술을 설명하기 위해 절약 한 것을 고가들에게 보낼 수있는 충분한 시간.


1
좋은 토론과 좋은 대답 +1.
Michael R. Chernick

좋은 점 @John
Peter Flom-Monica Monica

1
결과를 지적하기 위해 +1. 사람들이 더 나은 방법으로 전환하게 만드는 것은 놀라운 일입니다.
Leo

9

약간의 통계적 정교함만으로 심리학자의 관점에서 말하기 : 방법을 소개 할 때 도구도 소개하십시오. 만약 당신이 내 분야의 대부분의 연구자들에게 훌륭한 새로운 방법에 대한 긴 이야기를 들려 준다면, 펀치 라인이 "그리고 당신이해야 할 일은 미분 미적분학을 풀고 나서 두 개를 취하기 만하면됩니다." 주 교육 과정! " (또는 "2000 달러 통계 패키지를 구매하십시오!"또는 "5000 줄의 Python 및 R 코드를 조정하십시오!"). 이미 사용하고있는 stats 패키지 또는 이해하기 쉬운 GUI가있는 무료 소프트웨어에서 사용 가능한 메소드 구현이 있고 하루나 이틀 안에 속도를 높일 수 있다면, 기꺼이 줄 것입니다. 시도해보십시오.

나는이 접근법이 헛되고 비과학적인 것처럼 보일 수 있다는 것을 알고 있지만, 사람들이 보조금과 출판물에 대해 걱정할 때 쉽게 빠질 수 있으며, 많은 양의 수학을 배우는 것이 직업을 유지하는 데 도움이 될 것 같지는 않습니다.


2
@octem 수사관이 통계학자가 협업의 일부를 수행 할 것이라고 신뢰하지는 못했습니다. 조사자는 왜 도구가 필요합니까? 나는 이것을 의사와 함께 테이블을 뒤집는 것에 비유합니다. 내가이 수술을 수행하는 방법에 대한 빠른 자습서를 제공하면 그가 어떻게 느끼 겠는가? 나는 충격과 dsimay 생각하고 라이센스없이 mewdicine을 연습하는 것은 불법입니다. 아마 좋은 것입니다. 그러나 통계학자가 동등한 존중을받을 자격이있는 것은 아닙니다. 내가 그에게 도구를 제공하고 훈련 부족으로 해킹 할 수 있다고 기대하는 이유는 무엇입니까?
Michael R. Chernick

2
사회 심리학에서는 통계학자가있는 것이 일반적이지 않습니다 (통계 학자에게 지불 할 충분한 자금이없는 것은 일반적이지 않기 때문에). 이제 저는 공중 보건 / 건강 심리학에 있습니다. 큰 보조금에는 일반적으로 통계에 대한 급여가 포함되지만 PI의 급여를 감당할 수없는 작은 파일럿 보조금에 대해서는 많은 연구가 이루어집니다. 그것이 내가 바라는 관점입니다. 만약 당신이 대부분의 프로젝트에 훈련 된 통계학자가 포함 된 분야에 있다면, 이런 종류의 저항은 합리적이지 않을 것입니다.
octern

1
@octem 답변 주셔서 감사합니다. 유추에 대한 후속 조치입니다. 미국에서 낙태가 불법 인 경우가 있었으며 일부 여성은 다른 나라로 갔거나 무균 상태와 건강상의 위험없이 불법적으로 뒷방에서 일한 적이있었습니다. 그것은 큰 비유처럼 보이지 않을 수도 있지만 통계학자가 감당할 수 없다는 것은 열등한 일을하는 것을 정당화합니까? 나는 의학이 삶이나 죽음에 더 가깝다는 것을 알고 있지만 나쁜 과학도 나쁜 결과를 초래합니까? 데이터를 잘못 사용하면 안전하지 않은 약물을 사용하지 않아야하기 때문에 나쁜 약을 처방 할 수 있습니다.
Michael R. Chernick

@MichaelChernick 봐, 나는 사회 과학 통계 분석의 상태에 대해 행복하지 않습니다. 그러나 문제는 연구원들이 새로운 통계적 접근 방식을 채택하도록하는 방법에 관한 것이 었습니다. 저는 우리가 좋아하든 그렇지 않든, 많은 연구자들의 하위 집단에 적합한 답변을 제공하고 있습니다.
octern

1
@octem Fair로 충분하다고 생각합니다. 질문하기 전에 공감대를 줬어요 값싼 길은 갈 길이라고 생각하는 수사관의 태도는 내가 의심하는 것이며 문제를 인식한다는 사실이 아닙니다. 그것은 당신과 거기에 동의합니다. 그러나 어떻게 든 장기적으로 나는 우리의 일이 사소하지 않다는 것을 더 존중하고 인정해야한다고 생각합니다.
Michael R. Chernick

6

이 좋은 질문 피터에 감사드립니다. 나는 의료 연구 기관에서 일하고 의료 저널에 연구하고 출판하는 의사를 상대합니다. 그들은 종종 "통계를 올바르게 수행하는 것"보다 논문을 출판하는 데 더 관심이 있습니다. 그래서 내가 익숙하지 않은 기술을 제안 할 때 그들은 비슷한 논문을 지적하고 "그들이 그렇게했다고 생각하고 결과를 발표했습니다"라고 말할 것입니다.

출판 된 논문이 정말 나쁘고 실수가있을 때 생각하는 문제가 있습니다. 내가 큰 명성을 가지고 있지만 논쟁하기가 어렵습니다. 일부 문서에는 자아가 크며 거의 모든 것을 배울 수 있다고 생각합니다. 따라서 그들은 통계를 이해하지 못하고 일관성이 없을 때 통계를 이해한다고 생각합니다. 실망 할 수 있습니다. 그것이 테스트 중이고 Wilcoxon이 더 적합 할 때 나는 그들에게 Wilk Shapiro 테스트를 수행하게하고 정상 성이 거부되면 우리는 두 방법을 모두 포함하고 왜 Wilcoxon이 더 나은지를 설명합니다. 나는 때때로 그들을 설득 할 수 있고 종종 통계에 대해 저에게 의지하기 때문에 일반 컨설턴트보다 약간 더 영향력이 있습니다.

또한 Kaplan-Meier 곡선을 사용하여 로그 랭크 테스트를 사용했지만 Wilcoxon은 다른 결과를 얻었습니다. 결정하기가 어려웠으며 그러한 상황에서 두 방법을 모두 제시하고 왜 다른지 설명하는 것이 가장 좋습니다. 생존 곡선에 Peto vs Greenwood 신뢰 구간을 사용하는 것도 마찬가지입니다. 콕스 비율 위험 가정을 설명하는 것은 어려울 수 있으며 종종 승산 비와 상대 위험을 잘못 해석합니다.

간단한 대답은 없습니다. 나는 심장학의 최고 의료 연구원 인 상사를 보냈고 때로는 저널을위한 심판을 맡기도했습니다. 그는 진단을 다루고 AUC를 측정으로 사용한 논문을보고있었습니다. 그는 이전에 AUC 곡선을 본 적이 없으며 그것이 유효하다고 생각하는지 나에게 왔습니다. 그는 의심했다. 그것은 적절하다는 것이 밝혀졌고 나는 최선을 다해 그에게 설명했다.

나는 의사에게 생물 통계학에 대해 강의하려고 노력했으며 공중 보건 학교에서 생물 통계학을 가르쳤다. 나는 다른 사람들보다 더 잘하려고 노력하고 2002 년 전염병 학자와 공동 저자로 보건 과학 전공 입문 과정을위한 책을 제작했습니다. 와일리는 지금 제 2 판을 원합니다. 2011 년에 나는 바쁜 MD가 시간을 내서 그것을 다시 참조하고 참조 할 수 있도록 필수 사항 만 다루려고 간결한 책을 출판했습니다. 그것이 내가 처리하는 방법입니다. 아마도 당신은 우리와 당신의 이야기를 공유 할 수 있습니다.


이것이 좋은 점입니다 @Michael. 나는 약간의 이야기를 추가 할 것이다
Peter Flom-Reinstate Monica

1
@PeterFlom 비슷한 경험이있을 것 같습니다. 나는 당신이 다른 사람들의 대답에서 다른 좋은 반응을 얻고 있다고 생각합니다.
Michael R. Chernick

6

로그(엑스); 엑스(1,2)? 


저는 경력에 따라 여러 학제 간 연구를 수행하고 있으며, 약물 남용 연구자, 역학자, 생물 학자, 범죄 학자 및 의사와 긴밀히 협력하여 여러 차례 일했습니다. 여기에는 일반적으로 일반적인 "통조림"접근 방식이 다양한 이유로 실패 할 수있는 데이터 분석이 포함됩니다 (예 : 편향 샘플링 및 군집, 세로 및 / 또는 공간 인덱스 데이터의 일부 조합). 또한 2 년 동안 대학원에서 아르바이트를하면서 다양한 분야의 사람들과 함께 일했습니다. 그래서 저는 이것에 대해 많이 생각해야했습니다.

내 경험은 가장 중요한 것은 일반적인 통조림 접근 방식이 부적절하고 "좋은 과학"을하려는 사람의 호소에 호소 하는지 설명하는 것입니다 . 부적절한 통계 분석으로 인해 결론에 오해의 소지가있는 내용을 게시하려는 존경받는 연구원은 없습니다. 나는 그런 사람들이 존재한다고 확신하지만 "분석이 정확한지 아닌지 신경 쓰지 않고 이것을 게시하고 싶다" 는 문구를 쓴 사람을 본 적이 없다. 가능하면 전문적인 관계를 끝내십시오. 통계 학자로서 자신이 말하는 것을 실제로 아는 사람이 신문을 읽으면 손상 될 수있는 것은 저의 명성입니다.

나는 특정 분석이 부적절 것을 사람을 설득 도전 할 수 있다는 것을 인정하지만 통계로 우리가해야한다고 생각 (A) 은 "통조림"접근과 함께 잘못 될 수 있는지 정확히 알고 필요한 지식이 (B)를 가지고 그것을 설명하는 능력은 합리적으로 이해 가능한 방법입니다. 통계 또는 수학 교수로 일하지 않는 한, 직업의 일부는 비 통계 학자와 함께 일하는 경우가 있습니다 (때로는 통계 / 수학 교수 인 경우에도 해당).

(a) 와 관련 하여 통계학자가이 지식을 가지고 있지 않다면 왜 통조림 접근을 방해하고 있습니까? 통계학자가 "임의 효과 모델 사용"이라고 말했지만 독립성을 가정하는 것이 왜 문제가되는지 설명 할 수없는 경우, 고객과 같은 방식으로 교리에 유죄를 인정하지 않습니까? 통계 전문가이든 아니든 모든 검토자는 통계 모델 접근 방식에 대한 비판을 할 수 있습니다. 모든 모델이 잘못 되었기 때문입니다. 그러나 무엇이 잘못 될 수 있는지 정확히 알기 위해서는 전문 지식이 필요합니다.

(b) 와 관련하여 , 나는 잘못 될 수있는 것에 대한 그래픽 묘사가 일반적으로 "집에 닿는"것을 발견했다. 예 :

  • 엑스

  • 와이=엑스엑스(0,1)와이=1엑스>1엑스와이

  • 또 다른 일반적인 상황 (피터도 언급)은 왜 독립을 가정하는 것이 나쁜 생각인지 설명하고 있습니다. 예를 들어 양의 자기 상관이 일반적으로 더 "클러스터 된"데이터를 생성하고 그 이유 때문에 분산이 과소 평가됨을 플롯으로 표시하여 순진한 표준 오류가 너무 작은 경향이있는 이유를 이해할 수 있습니다. 또는 독립성을 가정 한 적합 곡선을 사용하여 데이터를 플로팅하고 독립 데이터에 존재하지 않는 방식으로 군집이 적합에 영향을 미치는 방식 (시료 크기를 효과적으로 낮추는 방법)을 시각적으로 확인할 수 있습니다.

백만 가지의 다른 예제가 있지만 여기서 공간 / 시간 제약 조건으로 작업하고 있습니다. 때때로.


3

복잡한 문제 이기 때문에 몇 가지 임의의 생각이 있습니다 ...

큰 문제는 다양한 전문 분야와 졸업 한 프로그램에서 수학 교육이 부족하다고 생각합니다.

통계에 대한 수학적 이해가 없으면 사례에 따라 적용되는 공식이됩니다.

또한 문제를 실제로 이해하기 위해서는 교수가 원저자가 자신의 접근 방식을 게시 할 때 직면했던 원래 문제에 대해 이야기해야합니다. 주제에 관한 수천 권의 책을 읽는 것보다 더 많은 것을 배울 수 있습니다.

통계는 문제를 해결하기위한 도구 상자이지만 예술이기도하며 다른 예술과 같은 문제에 직면합니다.

악기로 소리를내는 방법을 배울 수 있습니다. 그러나악기를 "연주" 하는 것은 음악가가되지 않습니다.

그러나 리듬, 멜로디 및 하모니의 단일 개념을 연구하지 않고 자신을 음악가로 보는 사람들을 찾는 것은 드문 일이 아닙니다.

같은 방식으로 논문을 출판하기 위해 대부분의 사람들은 공식의 개념을 알거나 이해할 필요가 없습니다. 요즘 과학자들은 어떤 키를 누르고 언제 눌러야하는지 알아야합니다.

따라서 이것은 MD의 "자아"와 관련이 없습니다. 이것은 하위 문화 문제로, 과학계의 교육, 관습 및 가치와 관련이있는 문제입니다.

학문적 요구 사항 / 정책을 충족시키기 위해 수천, 수천, 수천 개의 쓸모없는 논문과 책이 출판되는 시대에 어떤 사람이 기대할 수 있습니까? 출판하는 논문의 양이 논문의 질보다 더 중요한 시대에?

주류 과학자들은 더 이상 좋은 과학에 대해 걱정하지 않습니다. 그들은 숫자의 노예입니다. 그것들은 우리 시대의 행정적 버그에 의해 영향을 받거나 감염됩니다.

따라서 제 관점에서 볼 때 통계의 좋은 과정에는 연구되는 접근 방식의 수학적, 역사적, 철학적 기초가 포함되어야하며 항상 여러 경로를 강조해야합니다. 단일 문제를 해결하십시오.

마지막으로 통계 / 확률 교수 인 경우 첫 강의는 다음과 같은 문제에 전념 할 것입니다.카드 섞기 또는 동전 던지기 . 그것은 청중을 듣기에 올바른 위치에 놓을 것이다. 아마도.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.