통계적 직관 / 데이터 감지


20

저는 수학을 전공하는 2 학년생이며 수학 능력과 통계 능력의 차이에 대해 많은 교수들과 이야기를 나누었습니다. 그가 제기 한 주요 차이점 중 하나는 비공식적으로 "상식 제한"이라고하는 일련의 기능 내에서 작동하면서 기술적 능력의 조합으로 설명하는 "데이터 감지"였습니다. 많은 이론. 이것은 내가 말하는 것에 대한 예입니다. Gowers의 블로그에 나타났습니다.

영국의 여러 지역에서 경찰은 도로 사고가 발생한 위치에 대한 통계를 수집하고 사고 블랙 스팟을 식별하고 고속 카메라를 설치하고 더 많은 통계를 수집했습니다. 스피드 카메라를 설치 한 후 블랙 스팟에서 사고가 발생하는 경향이 뚜렷했습니다. 이것은 스피드 카메라가 도로 안전을 향상 시킨다는 것을 확실하게 보여줍니까?

협상 게임에서 무작위 전략을 주장한 사람은 기본적으로이 질문에 대한 답을 이미 알고있었습니다. 그는 극단적 인 경우를 고르면 실험을 다시 실행하면 극단적 인 경우가 더 적을 것으로 예상하기 때문에 아니오라고 말했다. 할 말이 많지 않아서이 질문에서 빨리 넘어 가기로 결정했습니다. 그러나 나는 사람들이 내가 가지고있는 계획에 대해 이야기했다. 이것은 가짜 텔레파시 실험을하는 것이었다. 나는 그들에게 텔레파시로 그들에게 빔을 발사하려고 20 동전 던지기의 결과를 추측하게 할 것입니다. 그런 다음 세 명의 최고 성과 자와 세 명의 최악의 선수를 선택하고 동전을 다시 던지겠습니다. 사람들은 성능이 향상 될 것으로 예상되며 텔레파시와 관련이 없음을 쉽게 알 수 있습니다.

내가 묻는 것은 이 "데이터 의미" 에 대해, 주제에 관한 출판물 (있는 경우)을 통해 또는 다른 사용자가이 기술을 개발하는 데 도움이되는 것을 통해 어떻게 배울 수 있는지입니다. 이 질문을 명확히해야한다면 미안합니다. 그렇다면 질문을 게시하십시오! 감사.


통계와 거짓말하는 법 은 시작하기에 좋은 곳입니다.
MånsT

Drunkard 's Walk 는 통계를 접근 가능한 상식 프레임 워크에 배치합니다.
Marcus Morrisey

답변:


10

나는 우리가 약간의 수학을해서는 안된다고 말합니다. 통계 이론의 발전에 중요한 도구이며 통계 방법은 이론에 의해 정당화됩니다. 또한 이론은 무엇이 잘못되었고 어떤 기술이 더 좋을지 (예 : 더 효율적) 알려줍니다. 그래서 저는 수학적 지식과 사고가 좋은 통계학자가되기 위해 중요하다고 생각합니다. 그러나 충분하지 않습니다. 의견에 언급 된 책이 좋다고 생각합니다. 다른 사람을 드리겠습니다.

데이터 감지 : 탐색 적 데이터 분석 및 데이터 마이닝에 대한 실용적인 가이드

데이터 이해 II : 데이터 시각화, 고급 데이터 마이닝 방법 및 응용 프로그램에 대한 실용 가이드

통계적 사고 : 비즈니스 성과 향상

비즈니스 및 산업에서 통계의 역할

통계 경력 : 숫자 너머

한과 스니 (Hahn and Snee)의 저서들은 특히 가치 있고 흥미 롭습니다. 왜냐하면 그것들은 수학 기술과 실제 경험을 가진 유명한 산업 통계 학자이기 때문입니다.


7
링크와 논평에 감사드립니다. 나는 일반적으로 [manuscript title](uri) 링크 마크 다운 을 사용하여 답변을 향상시킬 수 있다고 생각합니다 . 긴 하루가 지나면 긴 하이퍼 링크가 무의식적으로 혼란 스러울 수 있으며 불행히도 독자가 다른 좋은 대답에 대해 편견을 가질 수 있습니다.
jthetzel

@jthetzel 링크에서 URL을 대체하는 이름을 갖는 것이 더 좋은 이유를 알 수 있습니다. 시간이 있으면 그것을 배우는 법을 배웁니다. 나는 쉽다는 것을 안다. 그러나 나는 세 개 또는 네 개의 링크를 주었다. 링크를 클릭하고 그것이 무엇인지 확인하는 데 거의 시간이 걸리지 않습니다. 그래서 왜 그렇게 많은 커뮤니티 회원들이 그 일을 크게 처리하는지 이해가되지 않습니다.
Michael R. Chernick

6

언급 한 예에서 핵심 문제는 인과 추론입니다. 인과 적 추론을 시작하기에 좋은 곳은 Andrew Gelman 의이 삼중 서평 이며, 그 책들은 그 안에 리뷰 되었습니다. 인과 추론에 대한 학습 외에도 탐색 적 데이터 분석, 설명 및 예측의 가치에 대해서도 배워야합니다.

나는 사회 과학자들이 출판 된 작업, 블로그 , 세미나 및 개인 대화 에서 서로의 연구를 비판하는 것을 들음으로써 엄청난 양을 배웠습니다 . 배울 방법이 많이 있습니다. 이 사이트와 Andrew Gelman의 블로그를 따르십시오.

물론 데이터를 원한다면 실제 데이터를 다루는 연습이 필요합니다. 일반적인 데이터 감지 기술이 있지만 문제 영역에 특정한 데이터 감지 또는 특정 데이터 세트에 대한 데이터 감지가 있습니다.


5

좋은 무료 리소스는 Chance News Wiki 입니다. 사람들이 데이터와 통계를 해석하는 방법에 대한 좋은 점과 나쁜 점에 대한 토론과 함께 실제 예에서 가져온 많은 예가 있습니다. 종종 토론 질문도 있습니다 (시력 동기의 일부는 통계 교사에게 학생들과 토론 할 실제 사례를 제공하는 것입니다).


5

좋은 질문에 +1하세요! (그리고 지금까지 모든 응답자에게 +1)

나는 데이터 감각과 같은 것이 많이 있다고 생각하지만, 신비로운 것은 없다고 생각합니다. 내가 사용하는 비유는 운전입니다. 당신이 길을 운전할 때, 당신은 단지 다른 자동차와 무슨 일이 일어나고 있는지 알고 있습니다. 예를 들어, 당신 앞에있는 사람이 자신의 차례 신호를 사용하지 않더라도 자신이 방향을 정해야하는 도로 표지판을 찾고 있다는 것을 알고 있습니다. 느리고 신중한 운전자를 자동으로 식별하고 다양한 상황에서 어떻게 반응 할 것인지 예상합니다. 최대한 빨리 경주하고 싶은 십대를 발견 할 수 있습니다. 모든 자동차가하는 일에 대한 인식 기반의 감각 이 있습니다. 이것은 데이터 의미와 정확히 동일합니다. 그것은 경험에서 오는 많은경험의. 이론을 충분히 알고 있다면 실제 데이터 세트로 게임을 시작하면됩니다. DASL 과 같은 사이트를 탐색하고 싶을 수도 있습니다 . 그러나 한 가지 조건은 데이터 집합을로드하고 테스트를 실행하며 p- 값을 얻는 데 경험이 없어야한다는 것입니다. 데이터를 탐색하고 다른 방식으로 플롯하고 일부 모델에 적합하며 진행 상황을 고려해야합니다. (여기서 EDA는 일반적인 스레드였습니다.)

이 프로세스에 대한 명백하지 않은 사실 중 하나는 데이터 센스가 특정 주제 영역에 국한 될 수 있다는 것입니다. 예를 들어 실험 데이터 및 분산 분석에 대한 경험이 많을 수 있지만 시계열 데이터 또는 생존 데이터를 볼 때 어떤 일이 일어나고 있는지에 대해 좋은 느낌을 가질 필요는 없습니다.

제가 큰 도움이 된 전략을 하나 더 추가하겠습니다. 약간의 통계적 프로그래밍을 배우는 것이 좋습니다. 당신은 그것에 대해 굉장히 잘할 필요는 없다 ( "코믹하게 비효율적 인"코드를 작성하는 것으로 알려져있다). 그러나 기본 절차 코드를 작성하면 (예 :) 시뮬레이션R 할 수 있습니다 . 아주 간단한 시뮬레이션조차도 얼마나 많은 도움을 줄 수 있는지 강조하기가 어렵습니다. 이것을 사용할 수있는 한 가지는 연구 과정에서 탐구 할 수있는 몇 가지 속성에 대해 읽었을 때입니다. 예를 들어 데이터 집합에 대해 로짓 또는 프로 빗 모델이 더 나은지 경험적으로 결정하기 어렵다는 것을 (추상적으로) 알면 간단한 시뮬레이션을 코딩 할 수 있습니다아이디어를 더 완전하게 이해하기 위해 그들과 함께 연주합니다. 이것은 또한 경험을 제공하지만 약간 다른 유형을 제공하며 데이터 감각을 개발하는 데 도움이 될 것입니다.


+1 시뮬레이션을 통한 학습의 가치를 강조합니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.