작업 환경에서 올바른 통계를 제공합니까?


20

이 질문이 어디에 있는지 확실하지 않습니다 : Cross Validated 또는 The Workplace. 그러나 내 질문은 모호하게 통계와 관련이 있습니다.

"데이터 과학 인턴"으로 일하면서이 질문이 생겼습니다. 이 선형 회귀 모형을 작성하고 잔차 그림을 조사했습니다. 나는 이분산성의 명백한 표시를 보았다. 이분산성은 신뢰 구간 및 t- 검정과 같은 많은 검정 통계량을 왜곡한다는 것을 기억합니다. 그래서 나는 대학에서 배운 것을 따라 가중 최소 제곱을 사용했습니다. 관리자는이를 확인하고 "내가 복잡하게 만들었 기 때문에"그렇게하지 말라고 권했습니다. 이는 전혀 설득력없는 이유가 아니 었습니다.

또 다른 예는 "p- 값이 중요하지 않으므로 설명 변수를 제거하는 것"입니다. 따라서이 조언은 논리적 관점에서 의미가 없습니다. 내가 배운 것에 따르면, 중요하지 않은 p- 값은 기회, 잘못된 모델 사용, 가정 위반 등의 다른 이유로 인해 발생할 수 있습니다.

또 다른 예는 k- 폴드 교차 검증을 사용하여 모델을 평가한다는 것입니다. 결과에 따르면 은 보다 낫습니다 . 그러나 우리는 모델 1에 대해 가 더 낮 으며 그 이유는 intercept와 관련이 있습니다. 그러나 관리자는 가 더 높기 때문에 모델 2를 선호하는 것 같습니다 . 그의 이유 (예 : 가 강력하거나 교차 검증이 통계적 접근법이 아닌 기계 학습 접근법 임)가 내 마음을 바꿀만큼 설득력이없는 것 같습니다. CCVmodel1 R 2CVmodel2R2R 2R2R2

대학을 졸업 한 사람으로서 나는 매우 혼란스러워합니다. 실제 문제를 해결하기 위해 올바른 통계를 적용하는 데 매우 열정적이지만 다음 중 어떤 것이 사실인지 모르겠습니다.

  1. 내가 스스로 배운 통계는 잘못되었으므로 실수를 저지르고 있습니다.
  2. 회사의 이론적 통계와 건물 모델 간에는 큰 차이가 있습니다. 통계 이론은 옳지 만 사람들은 그것을 따르지 않습니다.
  3. 관리자가 통계를 올바르게 사용하고 있지 않습니다.

2017 년 4 월 17 일 업데이트 : 박사 학위를 받기로 결정했습니다. 통계에서. 답장을 보내 주셔서 감사합니다.


1
귀하의 질문과 관련된이 답변 아래의 의견 (특히 끝에있는 의견)입니다 : stats.stackexchange.com/questions/229193/…

이 토론은 또한 관련이있을 수 있습니다 . 실제로 데이터가 일부 필수 가정 (예 : 종속 변수의 Naive Bayes)을 위반하고 여전히 흥미로운 결과가있는 모델을 사용할 수 있습니다. 그러나 결론을 내릴 때 매우주의를 기울여야합니다. 그것이 주요 문제가되는 부분입니다. 대부분의 사람들은 결과를 얻는 한 결과의 의미에 신경 쓰지 않습니다. 출판 또는 멸망 ...
화려한

1
"당신이 옳고 그가 틀렸다"라는 대답은 아마도 옳고 귀하의 사건에 적용됩니다. 어쨌든, 때때로 대답은 "그는 틀렸지 만 그의 잘못된 길은 그의 목적을 위해 작동합니다. 어쩌면 그것은 사업을 운영하는 비 통계적인 목적을 위해하는 것보다 훨씬 더 잘 작동 할 것"이라는 점에주의하십시오. 나는 그것이 통계뿐만 아니라 모든 종류의 과학 지식으로 자주 발생한다고 생각합니다. SE Workplace에서는 통계가 아닌 예를 제공 할 수 있습니다.
Pere

3
@ Aksakal : OP가 통계적으로 설명하는 것에서 그는 더 정확합니다. 당신의 개인적인 일화는 일 화일뿐입니다. 나는 단지 30 개의 샘플만으로 A / B 테스트를 수행 할 수있는 직업으로 이사했다고 말함으로써 반박 할 수있다. 기본 전력 계산을 보여주는 것은 표본 크기와 의사 결정에 대한 팀의 모든 사고 방식을 바 꾸었습니다. OP의 질문으로 돌아가서, 설명 된 내용이 OP의 감독자가 잘못된 전화를 걸 었음을 의미하지는 않는다는 데 동의합니다. 비즈니스 워크 플로우는 그들과 "새로운 사람"과 관련된 특정 관성을 가지고 예언자가되기 전에 설교자 자신을 증명해야한다 ...
usεr11852는 분석 재개 MONIC 말한다

1
@ usεr11852, 내 의견은 rant :) 그러나 그것은 포인트가 있다고 생각합니다. 현장을 처음 접하는 사람에게는 상사가 더 잘 알고 있다고 가정하는 것이 더 안전합니다. 경험을 가지고 그는이 가정을 이완시킬 수 있고, 아마도 자신의 의견에 더 많은 가중치를 부여하고 상사에 덜 가중치를 부여 할 수 있습니다. 인턴의 경우 자체 의견에 대한 가중치는 ZERO와 비슷해야합니다.
Aksakal

답변:


12

간단히 말해서, 당신 말이 맞고 그는 틀 렸습니다. 데이터 분석의 비극은 많은 사람들이 데이터를 처리한다는 것입니다. 그러나 데이터 분석에 대한 교육이 약하고 일부는 무관심 때문에 소수의 사람들 만 잘 처리합니다. 저자 목록에 통계학 자나 기계 학습 전문가가없는 출판 된 대부분의 연구 기사를 비판적으로 살펴보면 귀무 가설이 참일 확률로 을 해석하는 등의 기본적인 실수를 빠르게 발견 할 수 있습니다. .p

이런 종류의 상황에 직면했을 때해야 할 유일한 일은 잘못한 연습에 대해 무엇이 잘못되었는지 예를 들어 설명하는 것입니다.


3
답장을 보내 주셔서 감사합니다. 나는 "다음 단계의 질문"이라고 생각합니다. 실제로 통계를 정확하게하는 일이 있습니까? 나는 데이터 과학이 오늘날 매우 인기가 있다는 것을 이해하지만, 어떻게 든 많은 "데이터 과학자들"이 정확한 통계 수행에 관심을 갖지 않는다는 인상을
받았다

1
@Misakov 나는 그것이 사람이나 조직에 달려 있다고 생각합니다. 그러나 "데이터 과학", "분석"및 "비즈니스 인텔리전스"와 같은 유행어는 위험 신호입니다. 그리고 면접에서도 면담을한다는 것을 잊지 마십시오. 일을 어떻게하는지에 대한 자세한 질문을하는 것이 좋을 것입니다. 데이터 분석에 대해 얼마나 심각한 지 확인할 수 있습니다.
Kodiologist

@Misakov 정확한 통계를 원한다면 아마도 학계에 들어가야 할 것입니다. 산업 용도의 대다수 (위의 답변 참조)가 잘못 될 것입니다.
Mooks

R2

1
@ usεr11852 좋은 (즉, 뾰족한 머리가 아닌) 관리자는 직원보다 더 잘 알면 직원에게 연기합니다. "기업이 여전히 존재한다는 점은 관리자의 결정이 그렇게 잘못 되지 않았습니다. "— 경쟁은 신속하지 않습니다.
Kodiologist

11

Kodiologist는 옳습니다-당신 말이 맞습니다. 그는 틀 렸습니다. 그러나 슬프게도 이것은 당신이 겪고있는 것보다 훨씬 일반적인 장소 문제입니다. 당신은 실제로 비교적 잘하고 있는 산업에 있습니다.

mean+3σ

이제이 신뢰 구간이 실제로 필요한 것을 알려주지 않는다는 사실 (그것에 대한 공차 구간이 필요하지 않음)을 제외하고는 일부 최대 값 또는 최소값 근처에있는 매개 변수에 대해 맹목적으로 수행됩니다 ( t는 실제로 그 값을 초과합니다). Excel은 필요한 것을 계산하기 때문에 (예, Excel은 말 했으므로) 매개 변수가 정규 분포 근처에 있지 않다는 사실에도 불구하고 사양에 따라 사양을 설정합니다. 이 사람들은 기본 통계를 습득했지만 qq 플롯 등은 아닙니다. 가장 큰 문제 중 하나는 통계가 부적절하게 사용될 때도 많은 숫자를 줄 것이므로 대부분의 사람들은 언제 그렇게했는지 알 수 없습니다.

다시 말해, 대다수 산업에서 대다수의 제품에 대한 사양은 말이되지 않습니다.

내가 맹목적으로 통계를 맹목적으로 따르는 사람들 중 최악의 예 중 하나는 자동차 산업에서 Cpk를 사용하는 것입니다. 한 회사는 공급 업체와 제품을 논쟁하는 데 약 1 년을 보냈습니다. 공급 업체는 단순히 불가능한 수준으로 제품을 제어 할 수 있다고 생각했기 때문입니다. 그들은 매개 변수에 최대 사양 (최소 없음)을 설정하고 Cpk를 사용하여 계산을 이론적으로 최소 수준을 설정하는 데 사용했을 때-클레임을 정당화하기 위해 주장을 정당화했습니다. )는 큰 음수 값을 암시했습니다. 이 매개 변수는 0보다 작을 수 없습니다. Cpk는 정상이라고 가정하지만 프로세스는 정상 데이터 근처에 아무 것도주지 않았습니다. 침몰하는 데 오랜 시간이 걸렸습니다. 사람들이 시간과 돈을 낭비했기 때문에 t 그들이 무엇을 계산했는지 이해합니다-그리고 그것이 눈에 띄지 않으면 훨씬 더 나쁠 수 있습니다. 이것은 자동차 산업에서 정기적으로 리콜이 발생하는 이유에 기여할 수 있습니다!

나 자신은 과학적 배경에서 왔으며, 솔직히 과학과 공학에서 가르치는 통계는 충격적으로 불충분하다. 나는 내가 지금 사용해야 할 대부분의 것을 들어 본 적이 없다. 그것은 모두 스스로 배워졌고 (적절한 통계 학자와 비교하여) 지금도 내 지식에 큰 격차가있다. 이런 이유로, 나는 통계를 잘못 사용하는 사람들을 비난하지 않고 (아마도 정기적으로 수행하고 있음) 교육이 열악합니다.

따라서 원래 질문으로 돌아가는 것은 쉽지 않습니다. 올바른 통계가 사용되도록 이러한 사항을 부드럽게 설명하려는 Kodiologist의 권장 사항에 동의합니다. 그러나 나는 그것에주의를 기울이고 경력을 위해 현명하게 전투를 선택하도록 조언합니다.

불행한 일이지만 모든 사람이 매번 최고의 통계를 낼 수는 없다는 사실입니다. 최종 전체 결론에 중요한 경우 수정하도록 선택하십시오 (때로는 두 가지 다른 방법으로 확인하는 것을 의미 함). "잘못된"방법을 사용하면 같은 결론을 도출 할 수있는 경우가 있습니다 (예 : 모델 1,2 예). 너무 많은 사람들을 너무 자주 수정하지 마십시오.

나는 그것이 지적 적으로 실망스럽고 세상은 다르게 작동해야한다는 것을 알고 있습니다. 슬프게도 그렇지 않습니다. 어느 정도 동료의 개성을 기반으로 전투를 판단하는 법을 배워야합니다. 당신의 (경력) 목표는 그들이 도움을 필요로 할 때가는 전문가가되는 것입니다. 사실, 만약 당신이 그 사람이되면, 사람들이 올바른 방식으로 듣고 일하도록하는 것이 가장 성공적인 곳일 것입니다. 행운을 빕니다.


Excel은 아마도 가장 널리 사용되는 데이터 분석 소프트웨어 일 것입니다. " 그래, 내가 말했어! "라는 말이 필요 없습니다 . 누군가가 학계를 벗어나지 않았다면 (그리고 아마도 큰 제약 회사가 아니라면) 당신의 원래 진술로 눈을 떼지 않을 것입니다. (Nice answer, +1)
usεr11852는 Reinstate Monic이

1
그것은 가장 널리 사용되는 것으로, 나는 그것이 나의 원래 요점을 강조한다고 생각합니다. Excel에는 데이터 분석에 큰 결함이 있습니다. 수행중인 작업이 Excel에서 수행되는 경우 수동으로 모든 계산을 직접 입력하지 않으면 실제로 데이터 분석이라고 할 수 없습니다. 스프레드 시트로서 Excel에 대한 것은 없지만 기본적으로 기본적인 데이터 분석 도구입니다. 그러나 사람들은 더 잘 배우지 않기 때문에 더 잘 알지 못합니다. 나는 통계 배경에서 오지 않았지만 더 나은 그래프를 만들기 위해 R을 언급 한 사람이 운이 좋았습니다.
Mooks

"나는 올바른 통계가 사용되도록 이러한 것들을 부드럽게 설명하려는 Kodiologist의 권고에 동의합니다." -나는 증인이되고 싶어. 자신의 고용주에게 사업 수행 방법을 설명하는 인턴.
Aksakal

1
# 9를 확인하면 도움 됩니다. 항상 이런 종류의 목록에 나오는 일반적인 조언입니다. 직장에서 처음 100 일 : 일을 바꾸라고 제안하지 말고, 사람들이 왜 자신이하는 방식으로 일을하는지, 왜 타당한 이유가 있는지 먼저 알아 내십시오. 당신은 당신을 바보로 만들 것입니다, 나는 새로운 사람들과 반복해서 이런 일이 일어나는 것을 보았습니다. 그냥 입 다물고 몇 달 동안 관찰
Aksakal

@ Aksakal 당신이 말한 것은 확실히 의미가 있습니다. 나는 주로 인턴이기 때문에 제 상황에서 약간 "굵게"행동하고 있습니다. 저는 어쨌든 곧 떠날 것입니다.
3x89g2

3

설명 된 내용은 다소 나쁜 경험으로 보입니다. 그럼에도 불구하고 그것은 자신의 교육적 배경이나 감독자 / 관리자의 통계적 판단에 즉각적으로 의문을 일으키는 원인이되어서는 안됩니다.

R2미래 어딘가의 점근 적 행동보다는 일이 그다지 의미가 없습니다. 사람들은 그것을 받아들이기를 꺼려 할 것이다. 모든 것이 (어떤) 작동 할 때 변화를 위해 에너지를 소비하는 이유는 무엇입니까? 관리자가 비즈니스 관점에서 반드시 틀린 것은 아닙니다. 그는 부서의 비즈니스 결정뿐만 아니라 통계도 담당합니다. 이러한 결정이 반드시 항상 일치하는 것은 아니며 단기 산출물과도 일치하지 않을 수도 있습니다 (시간 제약은 산업 데이터 분석에서 매우 중요한 요소입니다).

저의 조언은 (통계) 총을 고수하지만 사람들이하는 일에 개방적이며, 새로운 통계적 관행에서 분리 될 수있는 사람들에게 인내심을 갖고, 요청 될 때 조언 / 의견을 제공 하고, 더 두꺼운 피부를 키우고, 환경으로부터 배우는 것입니다. 당신이 올바른 일을하고 있다면, 이것은 천천히 보여 질 것입니다. 사람들은 당신이 그들의 현재 작업 흐름이 아닌 솔루션을 제공 할 수 있다는 것을 인식 할 것이므로 당신의 의견을 원할 것입니다. 마지막으로, 적당한 시간 (적어도 몇 달)이 지나면 평가 절하와 무례 함을 느끼게된다는 생각이들 것입니다.

말할 것도없이 지금 당신은 산업계에있을 수 있고 앉을 수 없으며 통계 교육을 연마 할 필요가 없다고 생각합니다. 예측 가능한 모델링, 회귀 전략, 클러스터링 알고리즘은 계속 발전하고 있습니다. 예를 들어, 산업 환경에서 가우시안 프로세스 회귀 분석을 사용하는 것은 10 년 전 공상 과학에 가깝습니다. 이제 시도해 볼 수있는 기성품처럼 보일 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.