Palantir의 아시아 차별 사례 : 확률은 어떻게 계산 되었습니까?


14

노동당이 아시아 인에 대한 차별로 그들을 고발 한 Palantir의 사건에 관한 이 기사 를 읽었습니다 . 이 확률 추정치를 어디서 얻었는지 아는 사람이 있습니까?

항목 (a)에서 1/741을 얻지 못했습니다.

(a) QA 엔지니어 직책의 경우 약 730 명 이상의 자격을 갖춘 지원자 ​​(약 77 %가 아시아 인)에서 팔란 타르는 아시아 이외의 지원자 6 명과 아시아 인 지원자 1 명만 고용했습니다. OFCCP에 의해 계산 된 부작용은 세 가지 표준 편차를 초과합니다. 이 결과가 우연히 발생했을 가능성은 약 741 명 중 하나입니다.

(b) 소프트웨어 엔지니어의 입장에서, 1,160 명 이상의 자격을 갖춘 지원자 ​​(약 85 %가 아시아 인)의 풀에서 팔 란타는 아시아 이외의 지원자 14 명과 아시아 인 지원자 11 명만을 고용했습니다. OFCCP에 의해 계산 된 악영향은 5 가지 표준 편차를 초과합니다. 이 결과가 우연히 발생했을 가능성은 약 340 만 명 중 하나입니다.

(c) QA 엔지니어 인턴의 경우 130 명 이상의 자격을 갖춘 지원자 ​​(약 73 %가 아시아 인)의 풀에서 팔 란타가 아시아 이외의 지원자 17 명과 아시아 인 지원자 4 명만 고용했습니다. OFCCP에 의해 계산 된 부정적인 영향은 6 개의 표준 편차를 초과합니다. 이 결과가 우연히 발생했을 가능성은 약 10 억분의 1입니다.


1/741 이외의 것을 얻기 위해 수행 한 계산을 보여줄 수 있습니까?
Ben Bolker

1
내 추정은 일방적이었습니다. 양측 가설 검정처럼 만들기 위해 두 배로 늘리면 1/741 숫자에 가깝습니다.
그레고르-모니카 복구

3
나는이 경우 두 배가 의미가 없다는 것에 동의합니다. 무엇을했는지 추측하려고했습니다. 문제는 정답이 아니라 어떻게이 추정치에 도달 했는가 입니다.
Gregor-복원 Monica Monica

1
누군가가 PDF 스크린 샷을 텍스트 인용문으로 변환한다면 좋을 것입니다 ...
amoeba는 Reinstate Monica가

1
finereaderonline.com을 사용하여 스크린 샷을 OCR 했습니다 .
아메바는 고 모니

답변:


20

나는 차별 사건에 대한 경험에서 이것을 역 엔지니어링 할 것입니다. "741에서 1" 의 값이 어디에서 왔는지 확실히 알 수 있습니다 . 그러나 번역에서 많은 정보가 손실되어 나머지 재건 작업은 사람들이 법정 환경에서 통계를 수행하는 방법을 보았을 때 의존합니다. 나는 세부 사항 중 일부만 추측 할 수 있습니다.


1960 년대 (제목 VI)에 차별 금지법이 통과 된 이후 미국 법원은 p- 값을보고이를 임계 값 0.01 과 비교하는 법을 배웠습니다 . 또한 일반적으로 "표준 편차"라고하는 표준화 된 효과를보고이를 "2 ~ 3 개의 표준 편차"의 임계 값과 비교하는 방법을 배웠습니다. 확립하기 위해 프리마 일견의 차별 소송에 대한 경우, 원고는 일반적으로 이러한 임계 값을 초과하는 "서로 다른 영향을"보여주는 통계 계산을 시도합니다. 이러한 계산을 지원할 수없는 경우 일반적으로 진행할 수 없습니다.0.050.01

원고의 통계 전문가는 종종이 익숙한 용어로 결과를 표현하려고 시도합니다. 일부 전문가들은 고용 결정이 순전히 무작위 적이며 직원의 다른 특성에 의해 중단되었다고 가정 할 때 귀무 가설이 "역효과 없음"을 나타내는 통계 테스트를 수행합니다. (단일 또는 양측의 대안이 전문가와 환경에 따라 다를 수 있습니다.) 그런 다음이 검정의 p- 값을 표준 정규 분포를 참조하여 여러 "표준 편차"로 변환합니다. - 표준 표준이 원래 테스트와 관련이없는 경우에도 마찬가지입니다. 이 로터리 방식으로 그들은 결론을 판사에게 명확하게 전달하기를 희망합니다.

우발 사태 표에 요약 될 수있는 선호되는 데이터 테스트는 Fisher 's Exact Test입니다. 이름에서 "정확한"의 발생은 특히 원고에게 유쾌합니다. 왜냐하면 오류없이 이루어진 통계적 결정을 의미하기 때문 입니다.

여기에 노동부의 계산에 대한 나의 (추론 적 재구성)이 있습니다.

  1. 그들은 Fisher 's Exact Test 또는 이와 유사한 것을 실행했습니다 (예 : 무작위 화를 통해 결정된 p- 값 을 갖는 테스트). 이 테스트에서는 Matthew Gunn의 답변에 설명 된대로 초기 하 분포를 가정합니다. (이 불만에 관련된 소수의 사람들의 경우, 초기 하 분포는 정규 분포에 의해 근사치가 아닙니다.)χ2

  2. 그들은 p- 값을 정규 Z 점수 ( "표준 편차 수")로 변환했습니다.

  3. 그들은 Z 점수를 가장 가까운 정수로 반올림 했습니다. "3 표준 편차 초과", "5 표준 편차 초과"및 "6 표준 편차 초과" (이 Z-점수 중 일부는 반올림 때문에 최대 보다 표준 편차로를, 나는이 "초과"정당화 할 수없는, 내가 할 수있는 그것을 인용입니다.)

  4. 불만 사항에서 이러한 통합 Z 점수는 다시 p- 값으로 변환되었습니다! 다시 표준 정규 분포가 사용되었습니다.

  5. 이러한 p- 값은 "이 결과가 우연히 발생했을 가능성"으로 설명되어 있습니다 (오해의 소지가있는 방식으로).

이 추론을 뒷받침하기 위해 세 경우의 Fisher 's Exact Test의 p- 값은 약 , 및 입니다. 이들은 풀의 가정에 근거 , , 및 "이상"에 대응하는 , 및 , 각각. 이 수치는 정상 Z 점수가 , 및 둥근 세, 다섯, 여섯 표준 편차, 불만에 나타나는 정확하게 숫자를 각각,,. (단일) 정규 p- 값에1 / 56만5천 1 / 58,000,000 730 1,160 130 730 1,160 130 - 3.16 - 4.64 - 5.52 1 / 741 1 / 3,500,000 1 / 1,000,000,0001/12801/5650001/58000000730116013073011601303.164.645.521/741, 및 : 정확하게 값은 불만에서 인용.1/35000001/1000000000


다음은 R이러한 계산을 수행하는 데 사용되는 코드입니다.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

6
와우, 나는 이것이 이루어질 수 있다고 생각할 수 없었다. 이것은 무섭다.
Aksakal

7
(+1) CSI : 통계.
Firebug

5

초기 하 분포를 사용하여 pval을 올바르게 계산하는 방법 :

도면 의 성공적인 를 가진 집합에서 여분의 실험을하지 않고 따른 성공 총 항목은 따를 초기 하 분포 .n K Nkn케이

일측 테스트의 경우 MATLAB에서 pval = hygecdf(k, N, K, n);또는이 경우 pval = hygecdf(1, 730, 562, 7)약 .0007839 인 전화를 걸 수 있습니다 .

평균 및 표준 편차는 다음과 같습니다.

μ=nKNs=nKNNKNNnN1
따라서 평균을 벗어난 -3.957 표준 편차입니다.

p- 값 (예 : hypergeometric cdf, test, z-test) 을 복제하기 위해 다양한 작업을 시도했지만 정확히 일치 할 수는 없습니다. (업데이트 : WHuber의 답변에는 정확히 일치하는 알고리즘이 있습니다 ... 무서워요!)χ2

OFCCP가 사용할 수있는 공식을 찾고 있다면이 사이트가 도움이 될 것입니다. http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

일부 계산 요약 :

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

를 들어 스탯 나는 표준 사용 네 개의 세포에 걸쳐.χ2(expectedactual)2expected


1
나는 같은 결과를 얻었지만 다르게. 1/741에 가깝지 않습니다
Aksakal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.