American Community Survey 다양성 데이터의 가중치를 재조정하면 오류 한계에 어떤 영향을 미칩니 까?


10

배경 : 저의 조직은 현재 미국 사회 조사 (미국 인구 조사국의 조사 프로젝트)를 기반으로하는 인력 다양성 통계 (예 : 장애인 %, 여성 %, 재향 군인 %)를 해당 그룹의 총 노동력 가용성과 비교합니다. 우리는 노동 인구와는 다른 인구 통계를 가진 매우 구체적인 직업 세트를 가지고 있기 때문에 이것은 부정확 한 벤치 마크입니다. 예를 들어 내 조직은 대부분 엔지니어라고 가정합니다. 공학은 우리 주에서 약 20 %에 불과합니다. 우리가 여성의 50 %에 해당하는 총 노동력 기준과 비교하면“우리는 여성이 20 % 밖에 안된다”고 공황에 빠지게됩니다. 실제로 20 %는 우리가 기대하는 것입니다. 그것이 노동 환경과 비슷하기 때문입니다.

내 목표 : 내가하고 싶은 것은 미국 지역 사회 조사 직업 데이터 (다양성 범주 별)를 취하여 내 사업의 직업 구성에 따라 다시 가중치를 부여하는 것입니다. 다음은 사회 및 지역 사회 서비스 근로자를위한 샘플 데이터 세트입니다 . 이 직무 코드를 함께 나열하고 싶습니다 (우리의 횡단 보도는 특정 직무 코드가 아닌 직무 그룹에 있기 때문에). 그 범주에 속한 사람들의 수에 따라 벤치 마크에 가중치를 부여하고 싶습니다 (예 : 3,000 사회 및 그런 다음 다른 모든 작업 그룹에 대해 동일한 작업을 수행하고 해당 숫자를 더한 다음 총 직원 수로 나누고 싶습니다. 이것은 새로운 재가 중 다양성 측정을 제공 할 것입니다 (예 : 장애가있는 사람의 6 %에서 장애가있는 사람의 2 %).

내 질문 :이 최종 롤업 벤치 마크에 오차 한계를 맞추려면 어떻게해야합니까? 나는 원시 인구 조사 데이터 세트를 가지고 있지 않지만 (표현) "추정"필드를 "오류 한계"로 전환하여 제공 한 링크에서 각 숫자에 대한 오차 한계를 볼 수 있습니다. 이 데이터로 작업하는 다른 동료들은 오류 한계를 완전히 무시하려고하지만 통계적으로 무의미한 벤치 마크를 만들지 않을까 걱정하고 있습니다. 위에서 설명한 조작 후에도이 데이터를 계속 사용할 수 있습니까?


3
ACS에 무게를 두지 마십시오. 그것은 섬세하고 매우 정교한 제품이며, 모든면에서 통계청이 인구 조사국만큼 좋은 통계라고는 생각하지 않습니다. 전국 비교를 위해 ACS 또는 CPS 에서 작업과 일치하는 직무에 대한 정의를 얻을 수 있다면 , 사과 대 사과 비교는 귀하의 비즈니스가 합리적인 다양성으로 행동하기 위해 ACS를 기반으로 예상되는 "다양성"범주 수를 계산하는 것입니다. 목표.
StasK

2
Stas, 나는 당신에 동의하지만, 아래에 표시된 것처럼 이것은 실제로 ACS의 가중치가 아닙니다.
Steve Samuels

설문 통계에서 " 가중치 "는 원래 설문 가중치의 변환을 의미 합니다. 이에 대한 예는 계층화, 샘플 레이크 또는 교정으로, 가중 된 샘플에 대한 특정 한계 분포가 센서스 또는 ACS 등 외부에서 알려진 분포와 일치합니다. Danica가 언급 한 절차는 ACS 가중치를 건드리지 않습니다.
Steve Samuels

도움이 될 수있는 것은 알고 싶은 유한 한 인구 량을 기록하는 것입니다. ACS에는 복제 가중치가 있습니까? 이들은 분산 추정에 도움이 될 수 있습니다.
probabilityislogic

답변:


8

2014-01-15 업데이트

나는 간접적으로 조정 된 비율 장애인에 대한 오류 마진이 ACS에서 동일한 비율에 대한 오류 마진보다 크거나 작은 지에 대한 Danica의 원래 질문에 대답하지 않았다는 것을 알고 있습니다. 답은 회사 범주 비율이 주 ACS 비율과 크게 다르지 않은 경우 아래 주어진 오류 마진은 ACS 오류 마진보다 작습니다. 이유 : 간접 비율은 조직 작업 범주 개인 수 (또는 상대 비율)를 고정 된 숫자로 취급합니다. 비활성화 된 비율의 ACS 추정에는 사실상 해당 비율 의 추정 이 필요하며 이를 반영하기 위해 오차 한계가 증가합니다.

설명하기 위해 비활성화 비율을 다음과 같이 작성하십시오.

P^adj=ninpi^

여기서 는 ACS의 범주 에서 예상 비활성화 된 비율입니다 .Ip^ii

반면에 ACS 추정 속도는 사실상 다음과 같습니다.

P^acs=(NiN)^pi^

여기서 및 은 각각 모집단 범주 및 전체 합계이고 은 범주 의 모집단 비율입니다 . N N i / N iNiNNi/Ni

따라서 외에도 을 추정해야하기 때문에 ACS 속도에 대한 표준 오차가 더 커집니다 .p iNi/Npi

조직 범주 비율과 인구 추정 비율이 크게 다르면 있습니다. 내가 구성한 두 범주의 예에서 범주는 및 비율로 표시되었습니다 . 비활성화 된 예상 비율의 표준 오류는 입니다.N (1) / N이 = 0.7345 N 2 / N이 = 0.2655 S E ( P는 C ) = 0.0677을SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655에스이자형(^에스)=0.0677

0.7345 및 0.2655를 고정 값 및 (간접 조정 방식)으로 간주하면 로 훨씬 작습니다. 아닌 경우, 과 , 동일한 빈도로, 극한의시 및 , 입니다. 조직과 인구 범주 비율이 크게 다른 경우 놀랍습니다. 그렇지 않다면 ACS 오류 마진을 보수적, 아마도 매우 보수적 인 실제 오류 마진의 추정치로 사용하는 것이 안전하다고 생각합니다.1/2/에스이자형(^제이)=0.03751/=0.152/=0.85에스이자형(^제이)=0.0678에스이자형(^에스)1/=0.001S E ( P 차원 j는 ) = 0.0792/=0.999에스이자형(^제이)=0.079

2014-01-14 업데이트

짧은 답변

제 생각에는 CI 또는 오류 마진 (CI 길이의 절반)이없는 통계를 제시하는 것은 무책임합니다. 이를 계산하려면 ACS PUMS (Public Use Microdata Sample) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ) 를 다운로드하여 분석해야합니다 .

긴 대답

이것은 실제로 ACS의 가중치가 아닙니다. 역학의 표준 절차 인 Google의 간접 표준화 버전입니다 (Google 또는 모든 에피 텍스트 참조). 이 경우 주 ACS 작업 (범주) 장애 비율은 조직 작업 범주 직원 수에 따라 가중됩니다. 이것은 조직의 예상 장애인 수를 계산하며 E관찰 된 수와 비교할 수 있습니다 O. 비교를위한 일반적인 측정 기준은 표준화 된 비율 R= (O/E)입니다. (일반적인 용어는 "표준 사망률"의 "SMR"이지만 여기서 "결과"는 장애입니다. R또한 관찰 된 장애 비율 (O/n)과 간접적으로 표준화 된 비율의 비율 (E/n)이며 n조직의 직원 수는 어디 입니까?

이 경우 CI 만 필요 E하거나 E/n필요한 것으로 보이 므로 먼저 시작하겠습니다.

만약

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

그때

 E = sum (n_i p_i)

차이 E는 다음과 같습니다.

 var(E) = nn' V nn

여기서 nn조직 범주 개수의 열 벡터 V는 ACS 범주 장애율의 추정 분산 공분산 행렬입니다.

또한, 사소하게, se(E) = sqrt(var(E))그리고 se(E/n) = se(E)/n.

E의 90 % CI는

  E ± 1.645 SE(E)

나누기는 n대한 CI를 얻을 수 있습니다 E/n.

추정하려면 var(E)ACS PUMS (Public Use Microdata Sample) 데이터 ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ) 를 다운로드하고 분석해야합니다 .

var(E)Stata의 컴퓨팅 프로세스에 대해서만 말할 수 있습니다 . 사용 가능한지 모르겠으므로 세부 정보를 연기하겠습니다. 그러나 R 또는 (아마도) SAS의 조사 기능에 대해 잘 알고있는 사람은 위의 방정식에서 나온 코드를 제공 할 수도 있습니다.

비율에 대한 신뢰 구간 R

의 신뢰 구간 R은 일반적으로에 대한 포아송 가정을 기반으로 O하지만이 가정은 틀릴 수 있습니다.

우리는 독립적으로 생각 O하고 고려할 수 있습니다.E

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))의 계산 후 하나 이상의 Stata 단계로 계산할 수 있습니다 var(E).

푸 아송 독립성 가정에서 :

 var(log O) ~ 1/E(O).

Stata와 같은 프로그램은 음의 이항 모델 또는 일반화 된 선형 모델에 적합하고보다 정확한 분산 항을 제공 할 수 있습니다.

에 대한 대략 90 % CI log R

 log R ± 1.645 sqrt(var(log R))

에 대한 CI를 얻기 위해 끝점을 지수화 할 수 있습니다 R.


이것은 좋은 토론입니다. 그러나 대해 CI를 지수화하도록 권장하면 자체에 대한 CI가 실제로 저하 될 수 있습니다 . R로그(아르 자형)아르 자형
whuber

번짐이 적절한 경우가 아닌 것 같지만 잘못되었을 수 있습니다. 무엇을 제안 하시겠습니까?
Steve Samuels

CV에 언급 된 일부 방법에는 CI 강화, 델타 방법 및 우도 함수 프로파일 링이 포함됩니다.
whuber

답변 주셔서 감사합니다. R을 사용하여 PUMS 데이터를 가져올 수 있습니까? SAS가 없습니다. 인구 조사에서 제공하는 DataFerret 도구를 사용하기 전에 PUMS 데이터를 가져 왔지만 Excel에서 유용하게 조작 할 수있는 것이 무엇인지 확실하지 않습니다. 분명히 R을 설치할 수는 있지만 경험이 없습니다.
DanicaE

1
천만에요, Danica. 이 답변이 도움이 되었으면 확인 표시를 눌러 공식적으로 수락하십시오. 답변을 업데이트했습니다. ACS 오류 마진을 적절한 오류의 보수적 인 대용품으로 제시하는 것이 좋습니다.
Steve Samuels

4

FACS에는 ACS 및 PUMS 액세스에 대한 유용한 자료가 있습니다 ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

또한 CRAN에서 자연스럽게 ACS라고하는 ACS 데이터를 처리하기위한 패키지가 있는데, 이는 ACS 데이터로 비정형적인 작업을 수행하는 데 실제로 도움이된다는 것을 알게되었습니다. 이것은 패키지에 대한 단계별 단계별입니다 (불행히도 문서는 직관적이지 않습니다) -http : //dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf


3

무료 소프트웨어 로이 문제를 해결하려면 @ pricele2의 answer ..에 http://asdfree.com 링크를 추가하면 다음 단계를 수행하는 것이 좋습니다.

(1) ( 두 시간의 노력 ) r 언어에 익숙해 지십시오. 처음 2 개의 동영상을 각각 2 분씩 시청

http://twotorials.com/

(2) ( 1 시간의 쉬운 지시 사항 ) 컴퓨터에 monetdb를 설치하십시오

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( 30 분의 지시에 따른 + 야간 다운로드 ) 컴퓨터에 acs pums를 다운로드하십시오. 필요한 년만 얻으십시오.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( 4 시간의 학습 및 프로그래밍 및 작업 확인 ) 필요한 사양에 따라 코딩해야하는 변수를 코딩

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( 두 시간의 실제 분석 ) 찾고자하는 정확한 명령을 실행하고 표준 오차를 포착하며 신뢰 구간을 계산합니다.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( 4 시간 프로그래밍 ) 비율 추정기가 필요한 경우 여기에서 비율 추정 예 (정확하게 조사 조정 된 표준 오류 포함)를 따르십시오.

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


감사합니다. 훌륭한 자료입니다. 다른 사람 이이 정보를 찾고 여기에 오면 내가 사용했던 R 자습서는 datacamp.comcoursera.org/course/rprog 입니다. Data Camp는 환상적인 대화 형 자습서입니다. Coursera 과정은 사물에 대한 이론 / 구조 / 이름에 더 무겁습니다.
DanicaE
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.