대규모의 1 % 마이크로 데이터 샘플을 사용하여 소규모 영역의 인구 조사 마이크로 데이터를 시뮬레이션하고 소규모 영역의 통계를 집계하려면 어떻게해야합니까?


9

소량의 지리적 집계 (호주 인구 조사 수집 지구)에서 개별 수준의 다변량 분석을 수행하고 싶습니다. 개인 정보 보호를 위해 이러한 소집단에서는 인구 조사를 이용할 수 없으므로 다른 대안을 조사하고 있습니다. 관심있는 거의 모든 변수는 범주 형입니다. 처분에 두 개의 데이터 세트가 있습니다.

  • 1 % 센서스 샘플은 훨씬 더 높은 수준의 공간 집계 (~ 190,000 인구 및 인구 통계 학적 공간 분리가 넓은 영역)에서 사용할 수 있습니다.

  • 소규모 영역 수준에서 관심있는 변수의 빈도 표 (500 소규모 영역, 평균 pop = 385, sd = 319, 중앙값 = 355).

이 두 데이터 세트를 사용하여 소규모 지역의 실제 인구와 최대한 가까운 소규모 지역에서 인구 분포를 시뮬레이션하려면 어떻게해야합니까?

이 작업을 수행하는 일반적인 방법이있을 수 있음을 이해합니다. 그렇다면 교과서 또는 관련 저널 기사에 대한 포인터는 대단히 감사하겠습니다.


아마도 관련이 있습니다 (유사한 문제가 있습니다) : stats.stackexchange.com/questions/14399/… Gibbs 샘플링이 여기에 필요할 수 있습니다.
mzuba

미국 통계 협회 (American Statistical Association)의 SRMSNET 메일 링리스트에 질문을하실 수 있습니다. 호주에 있다면 Ray Chambers에 접근 할 것입니다. 남반구에서 SAE를 더 잘 아는 사람은 아무도 없습니다. :)
StasK

이 문제는 "대칭 매핑"과 밀접한 관련이 있습니다.
whuber

1
나는 @ whuber에 동의하며, 주제 자료도 주어진 다마 메트릭 매핑에 관심이있을 수 있습니다. 불행히도, 그것은 나의 대답에서 인용 한 생태 학적 추론 문헌과 크게 분리되어 있습니다 (더 많은 문헌을 더 쌓고 싶지는 않습니다!) fmark는 어떻게 생각하십니까?
Andy W

1
일부 dasymetric 매핑 기술은 보조 데이터를 사용하여 데이터를 더 작은 영역으로 보간하려고 시도했습니다. 생태적 추론과 비대칭 매핑의 목표는 다소 다릅니다 (예측 / 예측과 추론의 차이와 다소 유사). 내가 수집 한 자료에 관심을 가질만한 다른 글을 쓸 것이다. 불행히도 나는 많은 문헌을 인용하는 것보다 훨씬 더 유용한 조언을 줄 수 없습니다. 그것은 현대의 인기있는 주제이며, 당신이 그것에 기여할 수 있기를 바랍니다!
Andy W

답변:


5

Dasymetric 매핑은 현재 유포 된 데이터에서 사용 가능한 것보다 작은 영역에 인구 추정치를 보간하는 데 주로 중점을 둡니다 ( 주제에 대한 유용한 참고 자료는 이 질문 참조). 종종 이것은 인구가없는 지역 (토지 특성을 기준으로)을 식별 한 다음 인구 밀도를 재 추정 (해당 지역 생략)하여 수행되었습니다. 예를 들어 도시에 수역이있는 경우, 거주 인구가없는 산업 토지 소포를 식별하는 경우도 있습니다. 보다 최근의 dasymetric mapping 접근 방식은 다른 추정 데이터를 확률 적 프레임 워크에 통합하여 인구 추정치를 할당한다 (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).

이제 질문과의 관계를 쉽게 확인할 수 있습니다. 작은 지역의 인구 추정치를 원합니다. 그러나 목표에 미치지 못하는 방법도 명확해야합니다. 모집단 데이터뿐만 아니라 해당 모집단의 특성도 원합니다. 이 상황을 설명하는 데 사용되는 용어 중 하나는 지원 문제 의 변화입니다 (Cressie, 1996; Gotway & Young, 2002). 포인트 샘플에서 넓은 영역에 걸쳐 특정 특성을 예측하려는 지질 통계 학적 문헌에서 차용 한 최근 연구는 면적 데이터를 다른 목표 영역으로 보간하려고 시도했습니다. Pierre Goovaerts 의 많은 작업은 지리학 적 분석 저널의 최근 기사 인 이러한 영역 간 kriging 방법에 중점을 둡니다. 는 다른 주제 자료를 적용한 방법의 몇 가지 예를 가지고 있으며 (Haining et al., 2010), 내가 가장 좋아하는 응용 프로그램 중 하나가이 기사에 있습니다 (Young et al., 2009).

내가 인용 한 것은 문제에 대한 만병 통치약으로 간주되어서는 안됩니다. 생태 학적 추론 및 집계 편향과 같은 많은 문제가 면적 보간의 목표에도 적용됩니다. 마이크로 레벨 데이터 사이의 많은 관계는 집계 프로세스에서 단순히 손실되므로 이러한 보간 기술은이를 복구 할 수 없습니다. 또한 데이터가 경험적으로 보간되는 과정 (집계 레벨 데이터에서 바리오 그램 추정을 통해)은 프로세스에 의문을 제기하는 임시 단계로 가득 차 있습니다 (Goovaerts, 2008).

불행히도 생태 추론 문헌과 dasymetric mapping 및 area-to-point kriging에 관한 문헌이 겹치지 않기 때문에 이것을 별도의 답변으로 게시합니다. 생태 학적 추론에 관한 문헌은 이러한 기술에 많은 영향을 미친다. 보간 기술은 집계 편향의 영향을받을뿐만 아니라, 지능적인 dasymetric 기술 (집계 데이터를 사용하여 더 작은 영역을 예측하기 위해 모델을 맞추는 것)은 집계 편향이 의심 될 수 있습니다. 면적 보간 및 비대칭 매핑이 특히 실패 할 수있는 상황에 대해 집계 편향이 발생하는 상황에 대한 지식이 계몽되어야합니다 (특히 분리 된 수준에서 서로 다른 변수 간의 상관 관계를 식별하는 경우).


인용


현대 문학에 대한 유용한 출발점에 감사드립니다. 저는 인구 밀도를 줄이는 것보다 더 많은 계량법을 알지 못했기 때문에 이것을 열심히 살펴볼 것입니다.
fmark

5

게리 킹의 작품, 특히 그의 책 "생태 학적 추론 문제에 대한 해결책"(처음 두 장은 여기에서 볼 수 있음 )이 흥미로울 것입니다 ( 생태 학적 추론에 사용하는 소프트웨어 ). King은 자신의 저서에서 이용 가능한 집계 데이터를 기반으로 하위 레벨 그룹화가 갖는 잠재적 한계를 조사하여 집계 데이터를 사용한 회귀 모델의 추정치를 개선 할 수있는 방법을 보여줍니다. 데이터가 대부분 범주 형 그룹이기 때문에이 기술을 적용 할 수 있습니다. (속지 마라해도 제목이 주어지면 원하는만큼 옴니버스 솔루션은 아닙니다!) 더 많은 최신 작품이 있지만 King 's book은 IMO가 시작하기 가장 좋은 곳입니다.

또 다른 가능성은 (지도 또는 그래프로) 데이터 자체의 잠재적 경계를 나타내는 것일 수 있습니다. 예를 들어 성별 분포가 집계 수준 (예 : 남자 5,000 명, 여자 5,000 명)으로보고 될 수 있으며이 집계 수준에는 9,000 명과 1,000 명의 인구가있는 2 개의 소규모 지역 단위가 포함되어 있다는 것을 알고 있습니다. 그런 다음이를 양식의 비상 대표로 나타낼 수 있습니다.

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

하위 수준 집계를 위해 셀에 정보가 없지만 한계 총계에서 각 셀에 대한 최소 또는 최대 전위 값을 구성 할 수 있습니다. 따라서이 예에서 Men X Unit1셀은 4,000에서 5,000 사이의 값만 취할 수 있습니다 (언제나 한계 분포가 셀이 취할 수있는 가능한 값의 간격이 작을수록 고르지 않음). 분명히 테이블의 경계를 얻는 것은 예상했던 것보다 어렵지만 ( Dobra & Fienberg, 2000 ), eiPackR 의 라이브러리에서 함수를 사용할 수있는 것 같습니다 ( Lau et al., 2007, p. 43 ).

이러한 유형의 데이터에서는 집계 바이어스가 필연적으로 발생하므로 집계 레벨 데이터를 사용한 다변량 분석은 어렵습니다. (간단히 말해서, 많은 다른 개별 레벨 데이터 생성 프로세스가 집계 레벨 연관을 초래할 수 있기 때문에 집계 바이어스를 설명 할 것입니다.) 미국 사회 학적 검토 의 일련의 기사 1970 년대에는 주제에 대한 내가 가장 좋아하는 참고 문헌 (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974)이 있지만 주제에 대한 정식 소스는 (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . 다변량 분석을 수행하기위한 집계 데이터의 한계로 인해 실제로 방해가 되더라도 데이터가 취할 수있는 잠재적 한계를 나타내는 것은 잠재적으로 흥미로울 수 있다고 생각합니다. 그럼에도 불구하고 사회 과학에서 누군가가 그것을하지 못하게하지는 않습니다 (더 나은지 또는 더 나쁜지를 위해!)

(찰리가 의견에서 말했듯이) King의 "솔루션"은 상당한 양의 범죄를 받았다는 점에 주목하십시오 (Anselin & Cho, 2002; Freedman et al., 1998). 비록 이러한 범죄가 King의 방법의 수학에 대해 언급 된 것은 아니지만 King의 방법이 여전히 집계 편향을 설명하지 못하는 상황과 관련하여 더 중요합니다 (그리고 저는 데이터가 사회 과학은 여전히 ​​왕의 가정을 충족시키는 것보다 훨씬 흔하다고 의심됩니다). 이것이 부분적으로 경계를 조사하는 것이 좋습니다 (그것에 아무런 문제가 없습니다). 그러나 그러한 데이터에서 개별 수준의 상관 관계에 대해 추론하는 것은 대부분의 상황에서 궁극적으로 정당화되지 않는 훨씬 더 많은 믿음의 도약을 필요로합니다.


인용


다른 사람들은 생태 학적 오류에 대한 King의 접근에 비판적이었다. David Freedman이 그 대표적인 예입니다. 다음은 Freedman과 그의 공동 저자가 위에서 인용 한 King의 책에 대한 답변입니다. citeseerx.ist.psu.edu/viewdoc/… 물론 King은 이에 대한 답변을 가지고 있으며 Freedman et al. 응답에 대한 응답에 대한 응답이 있습니다 ... 나는 당신이 무엇을하려고하는지, 어떤 데이터를 가지고 있는지 알 수 없지만 일반적으로 생태 추론 유형 분석에 회의적입니다.
찰리

예 @Charlie 동의합니다 (특히 Freedman이 일반적 으로이 문제를 취하는 것을 좋아합니다). 이것이 부분적으로 필자가 게시물 끝에 집계 편향에 관한 일반 문헌을 지적하는 이유입니다. 나는 "당신이 무엇을하려고하는지, 어떤 데이터를 가지고 있는지 알 수 없지만, 나는 일반적으로 생태적 추론-유형 분석에 대해 회의적이다"라는 진술에 의해 당신이 무엇을 의미하는지 잘 모르겠습니다. King과 Freedman은 데이터를 공유하지 않는 것에 대해 불평하고 있습니까?
Andy W

@Andy,이 기술은 경제학자들이 부분적으로 식별 된 분포 ( springer.com/statistics/statistical+theory+and+methods/book/… )와 동일합니까?
StasK

@ 앤디, 아니, 애매 모호해서 죄송합니다. 나는 실제로 OP에게 말하고 있었다. 소규모 지역에 빈도 표가 있고 소규모 지역에서 통계를 얻으려면 무엇이 빠졌습니까? 나는 당신이 당신의 게시물에서 제안한 것처럼 셀 내용이 아닌 여백을 가져야한다고 생각합니다.
찰리

@ StasK, 모르겠다. 나는 이번 주 후반에 책에 접근 할 때 King이 Manski를 언급하는지 확인합니다. 생태 학적 추론이 초록에 언급 된 경우 일부 중복이있을 수 있습니다. 두 사람 사이의 관계를 탐색 할 수있는 또 하나의 잠재적 (무료) 출처는 "생태 학적 추론의 새로운 방법"( 자신의 웹 사이트 에 전체 게시 됨)에서 편집 한 독자 King 일 수 있습니다.
Andy W

2

Google 검색 이 기본적으로 다변량 소 면적 추정에 대해 세 가지 유용한 참조를 제공 한다는 점에서 문헌에 잘 정의 된 답변이 있는지 확실하지 않습니다 . Pfeffermann (2002) 은 논문의 섹션 4에서 이산 반응 변수에 대해 논의하지만 이것들은 일 변량 모델이 될 것입니다. 물론 계층 적 베이지안 방법 ( Rao 2003, Ch. 10 )을 사용하면 어떤 경이도 할 수 있지만 결국에는 데이터가 거의 없기 때문에 이전의 내용을 복제하는 것만으로도 끔찍할 것입니다 시뮬레이션 운동의 결과. 또한 Rao는 연속 변수 만 처리합니다.

가장 큰 문제는 공분산 행렬을 소구역 간 및 소 면적 구성 요소로 분해하는 것입니다. 1 % 표본을 사용하면 SAE에서 3 개의 관측치 만 얻을 수 있으므로 성분 내에서 안정적인 추정치를 얻는 것이 어려울 수 있습니다.

내가 당신의 신발에 있다면, 나는 작은 영역의 다변량 랜덤 효과로 Pfeffermann 모델의 다변량 확장을 시도 할 것입니다. 디자인 기반의 작업이 없다면 실제로 이것을위한 계층 적 베이지안 모델로 끝날 수 있습니다.

업데이트 (이 답변에 대한 Andy의 의견을 다루기 위해) : 소규모 지역 추정을위한 부트 스트랩 방법 ( Lahiri 2003 )은 구체적으로 연구에서 그럴듯한 인구를 재생성합니다. 부트 스트랩 연습의 초점은 작은 면적 추정값의 분산을 추정하는 것이지만 절차는 관심이 있고 게시 된 문제와 관련이 있어야합니다.


Google 검색을 기반으로 한 문헌의 상태를 평가하지 않습니다. 나는 작은 영역 추정이이 경우에 저자가 찾고있는 것이 확실하지 않다. 내가 이해하는 한, 문헌은 작은 영역에서 특성을 예측하거나 ( Kriegler & Berk, 2010 ), 집계 단위당 적은 수의 샘플을 기반으로 다단계 모델에서 매개 변수를 추정 하는 데 중점을 둡니다 .
Andy W

작은 영역 추정이 내가하고 싶은 것인지 확실하지 않습니다. 내가 이해하는 것처럼, 작은 영역 추정은 작은 영역의 일부 샘플에서 요약 통계를 집계하려고합니다. 나는 반대편을 찾고 있습니다 (대 면적 인구 분포 및 소 면적 집계 요약 통계에서 시뮬레이션 된 소집단 인구로 이동). Lahiri 2003은 여기서 좋은 출발점처럼 보입니다.
fmark
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.