나는이 질문이 모든 조직에 존재하는 정치에 도달하기 때문에 좋아합니다. 제 생각에 그리고 상당한 정도로, 모델 성과에 대한 기대는 조직 문화와 조직이 "기술적으로 문맹"인 정도의 기능입니다. 내가 의미하는 바를 명확하게하는 한 가지 방법은 Google, FB, Amazon 및 Yahoo와 같은 4 개의 큰 "데이터 과학"엔티티와 WPP, Omnicon, Interbrand 및 Publicis의 4 개의 대행사 보유 엔티티 간의 차이를 고려하는 것입니다. 구글 등은 기술적으로 매우 능숙하다. 반면,이 기관들은 기술 공포증에 의존하는 것으로 알려져 있습니다. 이것에 대한 증거는 무엇입니까? 먼저, 기술적으로 문맹 인 그룹은 엔지니어, 컴퓨터 과학자, 괴짜 및 강력한 기술 배경을 가진 사람들에 의해 설립되거나 운영됩니다. 누가 기술 문맹 회사를 운영합니까? 부드러운 의사 소통과 사람들의 기술 덕분에 명성을 얻은 마케팅 담당자. 그뿐만 아니라 NYC의 일부 상점에서 근무한이 조직은 문화적으로 "적합한"것이 아니라 고도로 기술적으로 문맹이있는 유형을 체계적으로 처벌 및 / 또는 추진하고 있음을 증언 할 수 있습니다. 다음으로, 총액 (주식) 시가 총액을 고려하면, 기술 문맹 그룹은 최대 약 8 천억 달러, 기술 문맹 그룹은 800 억 달러에 달합니다. 기술 리터럴 기업은 시가 총액보다 10 배 더 큽니다. 이것은 시장의 기대에 대한 명확한 진술이며 문맹자에게는 높지 않습니다. 외삽 법으로, 이러한 bozos의 "예측 정확도"기대에 도전하기 위해 어떤 종류의 희망을 가질 수 있습니까? NYC에있는이 상점들 중 일부에서 일하면서, 나는 이들 조직들이 문화적으로 "적합한"것이 아니라 고도로 기술적으로 문맹이있는 유형을 체계적으로 처벌 및 / 또는 밀어 낸다고 증언 할 수 있습니다. 다음으로, 총액 (주식) 시가 총액을 고려하면, 기술 문맹 그룹은 최대 약 8 천억 달러, 기술 문맹 그룹은 800 억 달러에 달합니다. 기술 리터럴 기업은 다른 시가 총액보다 10 배 더 큽니다. 이것은 시장의 기대에 대한 명확한 진술이며 문맹자에게는 높지 않습니다. 외삽 법으로, 이러한 bozos의 "예측 정확도"기대에 도전하기 위해 어떤 종류의 희망을 가질 수 있습니까? NYC에있는이 상점들 중 일부에서 일하면서, 나는 이들 조직들이 문화적으로 "적합한"것이 아니라 고도로 기술적으로 문맹이있는 유형을 체계적으로 처벌 및 / 또는 밀어 낸다고 증언 할 수 있습니다. 다음으로, 총액 (주식) 시가 총액을 고려하면, 기술 문맹 그룹은 최대 약 8 천억 달러, 기술 문맹 그룹은 800 억 달러에 달합니다. 기술 리터럴 기업은 다른 시가 총액보다 10 배 더 큽니다. 이것은 시장의 기대에 대한 명확한 진술이며 문맹자에게는 높지 않습니다. 외삽 법으로, 이러한 bozos의 "예측 정확도"기대에 도전하기 위해 어떤 종류의 희망을 가질 수 있습니까? 총액 (주식) 시가 총액을 고려하면, 기술 문맹 그룹은 최대 약 8 천억 달러를, 기술 문맹 그룹은 800 억에 달합니다. 기술 리터럴 기업은 시가 총액보다 10 배 더 큽니다. 이것은 시장의 기대에 대한 명확한 진술이며 문맹자에게는 높지 않습니다. 외삽 법으로, 이러한 bozos의 "예측 정확도"기대에 도전하기 위해 어떤 종류의 희망을 가질 수 있습니까? 총액 (주식) 시가 총액을 고려하면, 기술 문맹 그룹은 최대 약 8 천억 달러를, 기술 문맹 그룹은 800 억에 달합니다. 기술 리터럴 기업은 시가 총액보다 10 배 더 큽니다. 이것은 시장의 기대에 대한 명확한 진술이며 문맹자에게는 높지 않습니다. 외삽 법으로, 이러한 bozos의 "예측 정확도"기대에 도전하기 위해 어떤 종류의 희망을 가질 수 있습니까?
따라서 문화적 돌파구와 낙하 장소에 따라 다소 현실적인 기대치를 가져야합니다. 물론, 다른 "기술 문맹"실체는 자신이 무엇을하고 있는지를 알고있는 관리자를 가지게되지만 대부분 기술 실무에서 가장 낮은 공통 분모의 관용구, 즉 기술이 가장 뛰어난 사람들이 지배합니다. 반 문맹 (그리고 위험) 또는 더 일반적으로 완전히 무수하지만 알지 못합니다. 예를 들어, 저는 c-suite deck에서 "correlation"과 같은 단어를 제거하려는 사람을 위해 일했습니다. 이것은 극단적 인 경우입니다. 결국 모든 비서는 "상관"이 무엇인지 알고 있습니다.
이것은 "왜 99 %의 예측 정확도를 얻지 못하는가?"와 같은 정말 멍청한 질문을 할 때 미친 듯이 순진하고 무수히 다루는 문제를 제기합니다. 좋은 응답 중 하나는 "왜 그렇게 비현실적으로 높은 PA가 가능하다고 가정하겠습니까?"와 같은 질문에 답하는 것입니다. 또 다른 이유는 "실제로 99 % PA를 받았다면 내가 잘못하고 있다고 가정했을 것입니다." PA가 90 % 인 경우에도 마찬가지입니다.
모델 가치에 대한 유일한 기준으로 PA에 대한 주장에 대한 더 근본적인 의문이 있습니다. Leo Breiman의 말미에는 PA가 하나 인 통계 및 예측 모델링 커뮤니티에 많은 발자국이 남았습니다. PA에 대한 그의 주요 관심사는 단일 CART 트리를 실행하는 데 내재 된 불안정성과 오류에 관해 90 년대에 이루어진 많은 비판을 다루는 것이 었습니다. 그의 해결책은“임의의 숲”을 나무 구조를 제거함으로써 정확도를 최대화하고 불안정성을 줄이는 근사적이고 임시적인 방법으로 동기를 부여하는 것이었다. 그는 단일 로지스틱 회귀 모델의 오류에 대해 ~ 1,000 개의 반복 RF "미니 모델"에서 낮은 MSE를 벤치마킹했습니다. 유일한 문제는 그가 눈부신 사과 대 오렌지 비교에 대해 언급하지 않았다는 것입니다.
2008 Netflix Prize는 추천 시스템의 MSE를 개선 할 수있는 통계 전문가 나 팀에게 상당한 금전적 보상을 제공했습니다. 당시 Netflix는이 시스템에 연간 1 억 5 천만 달러를 지출했으며, 고객 충성도 및 다른 방법으로는 선택하지 않았던 영화 구매 비용이 복구되었다고 확신했습니다. 최종 우승자는 107 가지 모델의 복잡한 앙상블을 사용했습니다.
그러나 Netflix가 알게 된 실제 문제는 완전히로드 된 비용 관점에서 현재 모델에 대한 실제 오류 개선이 5 점 만점에서 0.005 % 감소에 불과하다는 점이었습니다. 말할 것도없이, 107 개 모델의 우승 앙상블에 대한 IT 비용, 시간이 많이 걸리고 유지 보수하는 것은 오류 감소로 인한 이익을 무효로한다는 점은 말할 것도 없습니다. 이를 감안할 때 Netflix는 결국 MSE 추구를 포기했으며 더 이상 Netflix 상을 수상하지 않았습니다.
그리고 요점은 예측 오류를 최소화하는 것이 쉽게 게임을하거나 p- 해킹 될 수 있고 분석가 사기가 발생하기 쉽다는 것입니다 (즉, 분석가의 모델링 기술을 영화 롭게하여 해가 될 잠재적 보너스에 긍정적 인 영향을 미치는 솔루션을 찾는 것). 또한 경제 및 비즈니스 진공 상태에서 완전히 통계적인 솔루션 및 목표를 설정합니다. 이 지표는 부수적 인 부수 비용에 대한 고려를 거의 또는 전혀 제공하지 않습니다. A에서 Z까지 평가 된 실제 운영 결과는 완전히로드 된 트레이드 오프 기반 의사 결정 프로세스의 필수 부분이어야합니다.
이것은 조직에 내재 된 문제 중 하나가되었으며 변경하기가 매우 어렵습니다. 다시 말해서, 나는 PA를 사용하여주의 사항에 대해이 분노로 풍차에서 기울고 있음을 완전히 알고 있습니다.