John Snow Cholera 문제를 해결하기 위해 어떤 통계 모델 또는 알고리즘을 사용할 수 있습니까?


23

John Snow Cholera의 데이터를 기반으로 일종의 진원지에 대한 지리적 근사법을 개발하는 방법에 관심이 있습니다. 우물이 어디에 있는지에 대한 사전 지식없이 그러한 문제를 해결하기 위해 사용할 수있는 통계 모델링.

일반적인 문제로, 시간, 알려진 지점의 위치 및 관찰자의 도보 경로를 사용할 수 있습니다. 내가 찾고있는 방법은이 세 가지를 사용하여 "발생"의 진원지를 추정합니다.


2
Kriging 모델은 지리적 예측에 사용됩니다. 그것은 시작하는 곳이 될 수 있습니다. 시간 정보를 포함하려면 한 단계 더 나아가 시공간 모델을 사용해야합니다 (이것은 사용하지는 않았습니다).
Great38

4
@ 그레이트 크리깅 (Great Kriging)은 여기에 적용하기 어려울 것입니다. 그것은 극한을 추정하기위한 것이 아니며, 관련 도로를 따라 걷는 시간의 기하학에도 적합하지 않으며, 인구 밀도 또는 건물 노동자 수.
whuber

답변:


25

완전하거나 권위있는 답변을 제공하지 않고 단지 아이디어를 자극하기 위해 10 년 전에 제가 가르치고 있던 공간 통계 코스에서 실습을 위해 수행 한 빠른 분석에 대해보고 할 것입니다. 목적은 유클리드 거리를 사용하는 것과 비교하여 가능한 이동 경로 (도보)에 대한 정확한 설명이 상대적으로 간단한 탐색 방법 인 커널 밀도 추정에 어떤 영향을 미치는지 확인하는 것이 었습니다. 밀도의 피크 (또는 피크)는 Snow가 핸들을 제거한 펌프와 어느 정도 관련이 있습니까?

Snow의지도 (적절하게 지리 참조 된)의 상당히 높은 해상도의 래스터 표현 (2946 행 x 3160 열)을 사용하여지도에 표시된 수백 개의 작은 검은 색 관을 각각 디지털화하여 (309 개 주소에서 558 개 찾기) 주소에 해당하는 도로의 가장자리, 각 위치의 주소로 주소별로 요약합니다.

입력 데이터의 도트 맵

거리와 골목길을 식별하기 위해 이미지 처리를 한 후, 해당 영역으로 제한된 간단한 가우시안 확산을 수행했습니다 (GIS에서 반복 된 초점 수단 사용). 이것이 KDE입니다.

결과는 그 자체만으로도 설명 할 전설이 거의 필요하지 않습니다. (지도에는 다른 많은 펌프가 표시되어 있지만 모두이 뷰 밖에 있으며 밀도가 가장 높은 영역에 중점을 둡니다.)

색으로 밀도를 보여주는 눈의지도.


와우. 요약하면 다음과 같습니다. 1. 주행 경로를 선형화하고, 2. 1 차원에서 스무딩을 수행하고, 3. 2 차원으로 스무딩을 확장하고, 4. 경로 트립에서 kde를 평균화합니까?
cylondude

1
평활화는 2D로 수행되었지만 컬러로 표시된 영역으로 제한되었습니다. 설명과 유사하게 다른 방법도 있습니다. 그러나 "경로 여행"을 초과하여 평균을 계산할 필요는 없습니다 (무엇이든). 이지도는 1 차원 및 2 차원 도형의 속성을 공유하기 때문에 부분적으로 흥미 롭습니다.
whuber

거리의 각 지점 A에 대해 주소 위치 중 서로 지점 B에 대한 걸음 수를 계산합니다. 이 단계 수를 가우시안 밀도에 꽂고 그 값에 B의 사망 수를 곱하십시오. 모든 제품 (예 : 모든 주소 지점 B)을 더하여 A 지점에서 커널 밀도를 얻습니다. 모든 지점 A에 대해 수행하십시오. 거리에서. 이것이 우리가지도의 각 지점에서 보는 밀도입니다. 예?
Hatshepsut

2

2
@Hat 가우스가 도로와 보도에 구속 될 때 단위 적분이있는 경우는 아닙니다! 따라서 잘려서 다시 정규화해야합니다.
whuber

19

[1, §3.2]에서 David Freedman 은 귀하의 질문에 본질적으로 부정적인 답변을 제시합니다 . 즉, 통계적 모델이나 알고리즘은 John Snow의 문제를 해결할 수 없습니다. 스노우의 문제는 콜레라가 당대의 mi 스마 이론 에 대항하여 수 인성 전염병이라는 이론을 뒷받침하는 비판적인 주장을 개발하는 것이 었 습니다. "[통계 모델 및 신발 가죽"이라는 제목의 [1] 3 장도 이전에 게시 된 [2] 형식으로 제공 됩니다 .

프리드먼은이 몇 개의 짧은 페이지 [1, pp.47–53]에서 John Snow 자신의 확장 된 인용문을 인용했다. Freedman은 "1853 ~ 54 년에 Snow가 실제로 한 일이 Broad의 스트리트 펌프]. " 통계적 증거 를 마샬링하는 (인덱스 사례 식별 등과 같은 다른 예비가 논의되는 한), Snow 는 자연적으로 변이이용 하여 진정으로 놀라운 준 실험을 수행했습니다.

초기에 런던의 상수도 회사들 사이에 격렬한 경쟁이 있었으며, 이는 "가장 친밀한 종류의"(스노우의 말로) 수도의 공간 혼합을 초래했습니다.

각 회사의 파이프는 모든 거리와 거의 모든 법원과 골목으로 내려갑니다. 물 회사가 활발한 경쟁을했던 당시의 소유자 또는 점유자의 결정에 따라, 한 회사가 다른 회사에 의해 몇 개의 주택을 공급하고 다른 회사에 의해 몇 개의 주택이 공급됩니다.

...

두 수자원 회사의 공급을받는 집이나 사람들, 또는 그들이 둘러싼 물리적 조건에 차이가 없기 때문에 더 철저하게 테스트 할 실험이 고안되지 않았 음을 알 수 있습니다. 이보다 콜레라의 진행에 대한 물 공급의 영향.

— 존 스노우

존 스노이 준 실험에 이용 '자연 변화'의 또 다른 매우 중요한 비트는 하나 개의 물 회사는 템스의 물을 섭취했다이었다 하수 방전의 다운 스트림을 다른이의 흡입 이전하기 전에 몇 년 한 반면, 상류 . John Snow의 데이터 테이블에서 어느 것을 추측했는지 알려 드리겠습니다!

                     | 수 | 콜레라 | 당 죽음
회사 소개 | 주택 | 사망 | 10,000 채
-------------------------------------------------- --------
사우스 워크 & 복스 홀 | 40,046 | 1263 | 315
램버스 | 26,107 | 98 | 37
런던의 나머지 | 256,423 | 1422 | 59

프리드먼은 시들어 가면서

통계 기술의 한 부분으로서, [위의 표]는 결코 놀라운 것이 아닙니다. 그러나 그것이 말하는 이야기는 매우 설득력이 있습니다. 논증의 힘은 이전의 추론의 명확성, 많은 다른 증거 라인을 모으고 Snow 가죽이 데이터를 가져 오기 위해 기꺼이 사용했던 양에서 비롯됩니다. [1, p.51]

Snow가 활용 한 자연 변동의 또 다른 지점은 시간 차원 에서 발생했습니다 . 위에서 언급 한 취수 재배치가 두 전염병 사이에서 발생 하여 Snow는 동일한 회사의 물을 하수 추가 유무와 비교할 수 있습니다. (덕분에 필립에 B. 스타크의 한 저자 [1],이 정보를 트위터를 통해 . 참조 이 온라인 강의 그의의를.)


이 문제는 또한 사이의 대조에 유익한 연구를 제공 deductivisminductivism 에서 논의 된 바와 같이, 이 대답 .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. 통계 모델과 인과 추론 : 사회 과학과의 대화. 케임브리지; 뉴욕 : Cambridge University Press; 2010.

  2. 프리드먼 DA. 통계 모델 및 신발 가죽. 사회 방법론 . 1991; 21 : 291-313. doi : 10.2307 / 270939. 전문


1
진원지를 식별하는 것만으로는 "John Snow의 문제"를 해결하기에는 불충분했을 것입니다. 미아 스마 이론은 다윗이 지적한 당시에 널리 퍼진 이론 중 하나였습니다. as 스마 이론을 위조하기 위해서는 강에 가까워지면서 지리적 인 비율이 상승하지 않음을 보여 주어야한다. 이 문제에 대한 현대적인 접근 방식은 크릭을 활용했을 수 있습니다.
AdamO

감사합니다, @AdamO; 그러나 Kriging 이이 경우 "친밀한"공간 믹싱을 어떻게 수용하는지 궁금합니다 . 이는 Kpoling을 이해하는 것과 같이 보간 기술 을 적용하는 데 필요한 연속성에 거의 맞지 않는 것 같습니다 .
David C. Norris

아마도 나는 스노우의 말을 오해했을 것입니다. 제 추정은 "[펌프의 공급원의 친밀한 혼합" "은 강과의 거리에 의해 층화되어 도시 블록의 각 동 심층이 적어도 몇 개의 공급 업체 A, B, C의 펌프는 오염 된 물이 콜레라를 유발한다는 이론을지지하는 것과 관련이 있습니다. Kriging은 강과의 근접성이 콜레라 발생률 증가와 관련이 없음을 보여줌으로써 미나스 가설을 기각 할 것입니다. 이것은 펌프에서 물을 공급하는 사람들이 지원합니다. miasma는 파이프로 이동하지 않습니다.
AdamO

2
@AdamO 사실, 윌리엄 파는 (1849 년부터) 콜레라의 사망률을 연구하여 템즈 강 위의 고도와 비교했습니다. 이러한 변수들 사이의 일치는 획기적인 이론으로부터의 예측과 일치하고 거의 완벽합니다. Langmuir AD를 참조하십시오. Bacteriological Review 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). 이 기사는 1858 년 스노우 박사가 사망했을 때조차도 그의 이론은 "공식 단체에서는 받아 들여지지 않았다"고 지적했다.
whuber

1
@whuber 참조에 감사드립니다. 큐레이터의 방법으로 Langmuir 기사가 공개 된 것 입니다.
David C. Norris
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.