John Snow Cholera의 데이터를 기반으로 일종의 진원지에 대한 지리적 근사법을 개발하는 방법에 관심이 있습니다. 우물이 어디에 있는지에 대한 사전 지식없이 그러한 문제를 해결하기 위해 사용할 수있는 통계 모델링.
일반적인 문제로, 시간, 알려진 지점의 위치 및 관찰자의 도보 경로를 사용할 수 있습니다. 내가 찾고있는 방법은이 세 가지를 사용하여 "발생"의 진원지를 추정합니다.
John Snow Cholera의 데이터를 기반으로 일종의 진원지에 대한 지리적 근사법을 개발하는 방법에 관심이 있습니다. 우물이 어디에 있는지에 대한 사전 지식없이 그러한 문제를 해결하기 위해 사용할 수있는 통계 모델링.
일반적인 문제로, 시간, 알려진 지점의 위치 및 관찰자의 도보 경로를 사용할 수 있습니다. 내가 찾고있는 방법은이 세 가지를 사용하여 "발생"의 진원지를 추정합니다.
답변:
완전하거나 권위있는 답변을 제공하지 않고 단지 아이디어를 자극하기 위해 10 년 전에 제가 가르치고 있던 공간 통계 코스에서 실습을 위해 수행 한 빠른 분석에 대해보고 할 것입니다. 목적은 유클리드 거리를 사용하는 것과 비교하여 가능한 이동 경로 (도보)에 대한 정확한 설명이 상대적으로 간단한 탐색 방법 인 커널 밀도 추정에 어떤 영향을 미치는지 확인하는 것이 었습니다. 밀도의 피크 (또는 피크)는 Snow가 핸들을 제거한 펌프와 어느 정도 관련이 있습니까?
Snow의지도 (적절하게 지리 참조 된)의 상당히 높은 해상도의 래스터 표현 (2946 행 x 3160 열)을 사용하여지도에 표시된 수백 개의 작은 검은 색 관을 각각 디지털화하여 (309 개 주소에서 558 개 찾기) 주소에 해당하는 도로의 가장자리, 각 위치의 주소로 주소별로 요약합니다.
거리와 골목길을 식별하기 위해 이미지 처리를 한 후, 해당 영역으로 제한된 간단한 가우시안 확산을 수행했습니다 (GIS에서 반복 된 초점 수단 사용). 이것이 KDE입니다.
결과는 그 자체만으로도 설명 할 전설이 거의 필요하지 않습니다. (지도에는 다른 많은 펌프가 표시되어 있지만 모두이 뷰 밖에 있으며 밀도가 가장 높은 영역에 중점을 둡니다.)
[1, §3.2]에서 David Freedman 은 귀하의 질문에 본질적으로 부정적인 답변을 제시합니다 . 즉, 통계적 모델이나 알고리즘은 John Snow의 문제를 해결할 수 없습니다. 스노우의 문제는 콜레라가 당대의 mi 스마 이론 에 대항하여 수 인성 전염병이라는 이론을 뒷받침하는 비판적인 주장을 개발하는 것이 었 습니다. "[통계 모델 및 신발 가죽"이라는 제목의 [1] 3 장도 이전에 게시 된 [2] 형식으로 제공 됩니다 .
프리드먼은이 몇 개의 짧은 페이지 [1, pp.47–53]에서 John Snow 자신의 확장 된 인용문을 인용했다. Freedman은 "1853 ~ 54 년에 Snow가 실제로 한 일이 Broad의 스트리트 펌프]. " 통계적 증거 를 마샬링하는 것 (인덱스 사례 식별 등과 같은 다른 예비가 논의되는 한), Snow 는 자연적으로 변이 를 이용 하여 진정으로 놀라운 준 실험을 수행했습니다.
초기에 런던의 상수도 회사들 사이에 격렬한 경쟁이 있었으며, 이는 "가장 친밀한 종류의"(스노우의 말로) 수도의 공간 혼합을 초래했습니다.
각 회사의 파이프는 모든 거리와 거의 모든 법원과 골목으로 내려갑니다. 물 회사가 활발한 경쟁을했던 당시의 소유자 또는 점유자의 결정에 따라, 한 회사가 다른 회사에 의해 몇 개의 주택을 공급하고 다른 회사에 의해 몇 개의 주택이 공급됩니다.
...
두 수자원 회사의 공급을받는 집이나 사람들, 또는 그들이 둘러싼 물리적 조건에 차이가 없기 때문에 더 철저하게 테스트 할 실험이 고안되지 않았 음을 알 수 있습니다. 이보다 콜레라의 진행에 대한 물 공급의 영향.
— 존 스노우
존 스노이 준 실험에 이용 '자연 변화'의 또 다른 매우 중요한 비트는 하나 개의 물 회사는 템스의 물을 섭취했다이었다 하수 방전의 다운 스트림을 다른이의 흡입 이전하기 전에 몇 년 한 반면, 상류 . John Snow의 데이터 테이블에서 어느 것을 추측했는지 알려 드리겠습니다!
| 수 | 콜레라 | 당 죽음 회사 소개 | 주택 | 사망 | 10,000 채 -------------------------------------------------- -------- 사우스 워크 & 복스 홀 | 40,046 | 1263 | 315 램버스 | 26,107 | 98 | 37 런던의 나머지 | 256,423 | 1422 | 59
프리드먼은 시들어 가면서
통계 기술의 한 부분으로서, [위의 표]는 결코 놀라운 것이 아닙니다. 그러나 그것이 말하는 이야기는 매우 설득력이 있습니다. 논증의 힘은 이전의 추론의 명확성, 많은 다른 증거 라인을 모으고 Snow 가죽이 데이터를 가져 오기 위해 기꺼이 사용했던 양에서 비롯됩니다. [1, p.51]
Snow가 활용 한 자연 변동의 또 다른 지점은 시간 차원 에서 발생했습니다 . 위에서 언급 한 취수 재배치가 두 전염병 사이에서 발생 하여 Snow는 동일한 회사의 물을 하수 추가 유무와 비교할 수 있습니다. (덕분에 필립에 B. 스타크의 한 저자 [1],이 정보를 트위터를 통해 . 참조 이 온라인 강의 그의의를.)
이 문제는 또한 사이의 대조에 유익한 연구를 제공 deductivism 및 inductivism 에서 논의 된 바와 같이, 이 대답 .
Freedman D, Collier D, Sekhon JS, Stark PB. 통계 모델과 인과 추론 : 사회 과학과의 대화. 케임브리지; 뉴욕 : Cambridge University Press; 2010.
프리드먼 DA. 통계 모델 및 신발 가죽. 사회 방법론 . 1991; 21 : 291-313. doi : 10.2307 / 270939. 전문