게리 킹의 작품, 특히 그의 책 "생태 학적 추론 문제에 대한 해결책"(처음 두 장은 여기에서 볼 수 있음 )이 흥미로울 것입니다 ( 생태 학적 추론에 사용하는 소프트웨어 ). King은 자신의 저서에서 이용 가능한 집계 데이터를 기반으로 하위 레벨 그룹화가 갖는 잠재적 한계를 조사하여 집계 데이터를 사용한 회귀 모델의 추정치를 개선 할 수있는 방법을 보여줍니다. 데이터가 대부분 범주 형 그룹이기 때문에이 기술을 적용 할 수 있습니다. (속지 마라해도 제목이 주어지면 원하는만큼 옴니버스 솔루션은 아닙니다!) 더 많은 최신 작품이 있지만 King 's book은 IMO가 시작하기 가장 좋은 곳입니다.
또 다른 가능성은 (지도 또는 그래프로) 데이터 자체의 잠재적 경계를 나타내는 것일 수 있습니다. 예를 들어 성별 분포가 집계 수준 (예 : 남자 5,000 명, 여자 5,000 명)으로보고 될 수 있으며이 집계 수준에는 9,000 명과 1,000 명의 인구가있는 2 개의 소규모 지역 단위가 포함되어 있다는 것을 알고 있습니다. 그런 다음이를 양식의 비상 대표로 나타낼 수 있습니다.
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
하위 수준 집계를 위해 셀에 정보가 없지만 한계 총계에서 각 셀에 대한 최소 또는 최대 전위 값을 구성 할 수 있습니다. 따라서이 예에서 Men X Unit1
셀은 4,000에서 5,000 사이의 값만 취할 수 있습니다 (언제나 한계 분포가 셀이 취할 수있는 가능한 값의 간격이 작을수록 고르지 않음). 분명히 테이블의 경계를 얻는 것은 예상했던 것보다 어렵지만 ( Dobra & Fienberg, 2000 ), eiPack
R 의 라이브러리에서 함수를 사용할 수있는 것 같습니다 ( Lau et al., 2007, p. 43 ).
이러한 유형의 데이터에서는 집계 바이어스가 필연적으로 발생하므로 집계 레벨 데이터를 사용한 다변량 분석은 어렵습니다. (간단히 말해서, 많은 다른 개별 레벨 데이터 생성 프로세스가 집계 레벨 연관을 초래할 수 있기 때문에 집계 바이어스를 설명 할 것입니다.) 미국 사회 학적 검토 의 일련의 기사 1970 년대에는 주제에 대한 내가 가장 좋아하는 참고 문헌 (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974)이 있지만 주제에 대한 정식 소스는 (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . 다변량 분석을 수행하기위한 집계 데이터의 한계로 인해 실제로 방해가 되더라도 데이터가 취할 수있는 잠재적 한계를 나타내는 것은 잠재적으로 흥미로울 수 있다고 생각합니다. 그럼에도 불구하고 사회 과학에서 누군가가 그것을하지 못하게하지는 않습니다 (더 나은지 또는 더 나쁜지를 위해!)
(찰리가 의견에서 말했듯이) King의 "솔루션"은 상당한 양의 범죄를 받았다는 점에 주목하십시오 (Anselin & Cho, 2002; Freedman et al., 1998). 비록 이러한 범죄가 King의 방법의 수학에 대해 언급 된 것은 아니지만 King의 방법이 여전히 집계 편향을 설명하지 못하는 상황과 관련하여 더 중요합니다 (그리고 저는 데이터가 사회 과학은 여전히 왕의 가정을 충족시키는 것보다 훨씬 흔하다고 의심됩니다). 이것이 부분적으로 경계를 조사하는 것이 좋습니다 (그것에 아무런 문제가 없습니다). 그러나 그러한 데이터에서 개별 수준의 상관 관계에 대해 추론하는 것은 대부분의 상황에서 궁극적으로 정당화되지 않는 훨씬 더 많은 믿음의 도약을 필요로합니다.
인용
- Anselin, L. & WKT Cho (2002). 공간 효과 및 생태적 추론. 정치 분석 10 (3) : 276-297.
- Dobra A. & SE Fienberg (2000). 한계 총계 및 분해 가능한 그래프가 제공된 우발성 테이블의 셀 항목에 대한 경계입니다. 국립 과학 아카데미 97 (22)의 절차 : 11885-11892
- Firebaugh, G. (1978). 집계 데이터에서 개별 관계를 유추하는 규칙입니다. 미국 사회 학적 검토 43 (4) : 557-572
- Fotheringham, AS & DW Wong (1991). 다변량 통계 분석에서 수정 가능한 면적 단위 문제입니다. 환경 및 계획 A 23 (7) : 1025-1044
- Freedman, DA, SP Klein, M. Ostland 및 MR Roberts (1998). 작품 검토 : G. King의 생태 추론 문제에 대한 해결책. 미국 통계 협회 저널 93 (444) : 1518-1522. (PDF는 여기 )
- Hammond, JL (1973) 생태적 상관 관계에서 두 가지 오류 원인. 미국 사회 학적 검토 38 (6) : 764-777
- Hannan, MT & L. Burstein (1974). 그룹화 된 관측치로부터의 추정. 미국 사회 학적 검토 39 (3) : 374-392
- 킹 G. (1997). 생태 학적 추론 문제에 대한 해결책 : 집계 데이터에서 개별 행동 재구성 . 프린스턴 : 프린스턴 대학 출판부.
- Lau O., RT Moore & M. Kellerman (2007). eiPack : RXC 생태 추론 및 고차원 데이터 관리. R 뉴스 7 (2) : 43-47
- Oppenshaw, S. (1984). 수정 가능한 영역 단위 문제 . 노리치 : 지리 북. ( PDF는 여기 )
- WS, 로빈슨 (1950). 생태 학적 상관 관계와 개인의 행동. 미국 사회 학적 검토 15 (3) : 351-357. ( PDF는 여기 )