모델 구축에서 사회적 차별을 피하십시오


10

아마존의 최근 채용 스캔들에서 영감을 얻은 질문이 있는데, 채용 과정에서 여성에 대한 차별로 기소되었습니다. 더 많은 정보는 여기에 :

Amazon.com Inc의 머신 러닝 전문가는 큰 문제를 발견했습니다. 새로운 채용 엔진은 여성을 좋아하지 않았습니다.
이 팀은 2014 년부터 최고 인재 검색을위한 기계화를 목표로 취업 지원자의 이력서를 검토하기 위해 컴퓨터 프로그램을 구축해 왔습니다
. ...
... 그러나 2015 년까지이 회사는 새로운 시스템이 소프트웨어 개발자 직무 및 기타 기술 직종 후보를 성별에 중립적으로 평가하지 않는다는 것을 깨달았습니다.
아마존의 컴퓨터 모델은 10 년 동안 회사에 제출 된 이력서의 패턴을 관찰하여 지원자를 대상으로 교육을 받았기 때문입니다. 대부분은 기술 업계에서 남성 지배력을 반영한 남성에서 나왔습니다. (기술의 성별 분석에 대한 그래픽은 여기를 참조하십시오. ) 실제로 Amazon 시스템은 남성 후보가 선호된다고 스스로에게 가르쳤습니다. "여성 체스 클럽 주장"과 같이 "여성"이라는 단어가 포함 된 이력서를 처벌했습니다. 그리고이 문제에 대해 잘 알고있는 사람들에 따르면 두 여자 대학을 졸업했다. 그들은 학교의 이름을 지정하지 않았습니다.
아마존은 이러한 특정 용어를 중립으로 만들기 위해 프로그램을 편집했습니다. 그러나 이것이 기계가 차별을 입증 할 수있는 다른 후보 분류 방법을 고안하지는 않을 것이라고 보장하지 않았다.
시애틀 회사는 경영진이 프로젝트에 대한 희망을 잃었 기 때문에 작년 초까지 팀을 해산 시켰습니다
.
카네기 멜론 대학교 (Carnegie Mellon University)에서 기계 학습을 가르치는 니 하르 샤 (Nihar Shah)와 같은 컴퓨터 과학자들은 아직해야 할 일이 여전히 많다고 말합니다.
"알고리즘이 공정한지 확인하는 방법, 알고리즘이 실제로 해석 가능하고 설명 가능한지 확인하는 방법-아직 멀었습니다."

MASCULINE LANGUAGE
[Amazon]은 아마존의 에든버러 엔지니어링 허브에 약 12 ​​명으로 구성된 팀을 구성했습니다. 그들의 목표는 웹을 빠르게 크롤링하고 채용 할 가치가있는 후보를 찾아 낼 수있는 AI를 개발하는 것이 었습니다.
이 그룹은 특정 직무 및 위치에 초점을 맞춘 500 대의 컴퓨터 모델을 만들었습니다. 그들은 각 후보자들에게 과거 이력서에 나타난 약 5 만 단어를 인정하도록 가르쳤다. 이 알고리즘은 다양한 컴퓨터 코드를 작성할 수있는 능력과 같이 IT 지원자에게 공통적 인 기술에 거의 영향을 미치지 않는 법을 배웠습니다 ...
대신,이 기술은 남성 엔지니어의 이력서에서보다 일반적으로 발견되는 동사를 사용하여 자기 자신을 묘사 한 후보자를 선호했습니다. 한 사람이 말했다.

새로운 사람들을 모집하는 데 도움이되는 5 성급 순위와 같은 개인 데이터의 출력을 예측하는 통계 모델을 만들고 싶다고 가정 해 봅시다. 윤리적 제약으로 성 차별을 피하고 싶다고합시다. 성별과는 별개의 두 개의 프로파일이 주어지면 모델의 결과는 같아야합니다.

  1. 성별 (또는 이와 관련된 모든 데이터)을 입력으로 사용하고 그 효과를 수정하거나 이러한 데이터를 사용하지 않아야합니까?

  2. 성별에 대한 차별이 없는지 어떻게 확인합니까?

  3. 통계적으로 판별되지만 윤리적 인 이유로 원하지 않는 데이터에 대해 모델을 어떻게 수정합니까?


1
아마존의 채용 스캔들에 관한 기사에 대한 언급은 귀하의 질문에 중요하다고 생각합니다. 어떤 사람들은 고용 된 남성과 여성의 단순한 불균형을 제외하고는 "차별"(어떻게 정의되어 있는지에 따라)이 전혀 없다고 주장 할 수 있으므로 "차별"에 대한 정의를 제공 할 수 있습니다.
Stats 학생

1
정식 답변이 불가능할 가능성은 어떻습니까? 당신은 그것을 해결할 수 있습니까? 재개를 고려하고 있습니다.
gung-복직 모니카

3
"모델의 결과에 대한 성별의 영향의 부재"-이것이 왜 좋은 정의인지는 모르겠습니다. 모델에 성별이라는 기능이 없다고 가정하십시오. 어쨌든 그렇지 않습니다. 그런 다음 다른 여성을보고 "피겨 아웃"을 모델링하고 여성이 직업에 적합하지 않기 때문에 다운 그레이드합니다. 해병과 같이 여성에게 적합하지 않은 직업이 많이 있습니다. 그렇다고 훌륭한 여성을 찾을 수는 없지만 대부분 적합하지는 않습니다.
Aksakal

2
@Lcrmorin, 왜 물리적입니까? 프로그래머가 여성과 남성 모두에게 가장 적합한 이유는 무엇입니까? 분명한 이유가 보이지 않습니다. 고임금 일자리 만 의문을 품기 때문에 의심 스럽다. 예를 들어, 남성은 더 많은 감옥에 갇히게됩니다. 차별을 구성하는 것에 대한 좋은 정의가 가장 중요합니다
Aksakal

1
나는 이것이 인과 적 영향을 결정하려고 시도하는 사회 과학에 적용된 통계학 코스에 의해 다루어 진다고 생각한다. 생략 된 변수 바이어스 등을 식별하는 것, '인자 X에 대한 제어'등
seanv507

답변:


4

이 백서는 특히 언어 기반 모델에서 성 편견을 탐색하는 방법에 대한 훌륭한 개요를 제공합니다. 남자는 여자가 가정 주부 인 것처럼 컴퓨터 프로그래머입니까? Debiasing Word Embedddings-Bolukbasi et. 알. . 좋은 블로그 요약은 여기에서 찾을 수 있습니다 :

https://developers.googleblog.com/2018/04/text-embedding-models-contain-bias.html

여기에 더 많은 자료가 있습니다 :

https://developers.google.com/machine-learning/fairness-overview/

위의 링크에서 성 편견을 완화하기위한 많은 기술을 찾을 수 있습니다. 일반적으로 그들은 세 가지 클래스로 나뉩니다.

1) 데이터 언더 / 오버 샘플링. 이것은 고품질의 여성 이력서와 과소 샘플 남성 이력서를 과도하게 샘플링하기위한 것입니다.

2) "성별 부분 공간"빼기 모델이 성별 편향 인 경우 이력서 임베딩을 사용하여 성별을 직접 예측하여이를 입증 할 수 있습니다. 이러한 보조 모델을 구축 한 후에도 (성에 속하는 공통 용어를 샘플링 한 다음 PCA를 적용하더라도) 이력을 모델에서 실제로 빼면 이력서를 성별에 중립으로 만들 수 있습니다. 이것은 Bolukbasi의 논문에서 사용되는 주요 기술입니다.

3) 대적 학습. 이 경우 실제 이력서와 구별 할 수없는 더 많은 버전의 고품질 여성 이력서를 생성하여 추가 데이터를 생성하려고합니다.


1
여기에 공격은 없지만 뭔가 빠졌습니다. 이 질병을 무시하면서 증상을 치료하고 있습니까? PC 언어 솔루션은 전혀 솔루션입니까, 아니면 자체 문제입니까? 언어는 감정의 주요 원인이 아니라 표현의 수단 일뿐입니다. 감정은 상황에 대한 반응입니다. 언어로 종이를 쓰지 말고 상황을 수정하십시오.
Carl

@Carl : 데이터 세트가 이미 바이어스로 썩은 경우 수정하기가 매우 어렵습니다. 정치적 정확성은 편견을 완화하려는 시도입니다. ML의 경우, 모델은 성별에 기초한 예측을 기술에 기반한 예측으로 편향시키는 것으로부터 멀어지게합니다. 그렇지 않으면 그러한 모델은 여성에게 불이익을 줄 수 있으며 각 직업마다 기술에 매우 다른 점수를 부여 할 것입니다. 편견이 발생하는 추가 방법과 데이터 변경이 아닌 물리적 변경을 통해이를 수정하는 방법에 대한 Dave Harris의 답변을 읽으십시오
Alex R.

Dave의 답변에 댓글을 달았습니다. 당신이 싫어하는 직업을 얻는 것이 문제라는 점을 놓칠 수도 있습니다. 보존 문제 및 작업 환경을 수정하십시오. 암컷을 "매력적"으로 만드는 것은 아무것도 해결하지 못하여 문제를 악화시킬 수 있습니다. 직업과 관련하여 문제는 "결혼"이 아니라 "결혼 상태"입니다.
Carl

@Carl : OPs 질문이 기존 데이터 세트에서 통계 모델을 작성하는 방법에 대해 명확하게 묻기 때문에 여기서 주장하고있는 것이 확실하지 않습니다. 내가 제공 한 링크는 기본적으로 언어 모델에 숨겨진 편향이 이미 포함되어 있음을 보여줍니다. 나는 직업을 오래 유지하는 사람들이 다른 곳에서 일자리를 찾기에는 너무 평범하다고 ​​생각할 수도있다. 최적화하는 KPI에 관계없이 (관련이 있지만 완전히 별개의 주제 임) 모델에 여전히 성별 편향이있을 수 있습니다.
Alex R.

1
동의했다. 당신은 질문에 대답했습니다. 그러나 기술 직종의 여성 직업 보유는 좋지 않으며 문제를 식별하지 못했습니다. 따라서 대답은 여성에게 장애입니다. 사용하면 불행이 발생할 수 있습니다. 통계 학자들은 자신의 작업을 맥락에서보고 순진하게 제기 된 것보다 더 적절한 질문을 식별해야 할 도덕적 책임이 있습니다.
Carl

9

이것은 귀하의 질문에 대한 답변이 아니라 너무 길어서 의견에 맞지 않는 몇 가지 생각입니다.

이러한 문제에 대해 생각할 때 고려해야 할 한 가지 문제는 모든 모델이 차별적 이며 데이터에 존재하는 모든 연관성을 기반으로 할 것입니다. 그것은 예측 모델의 전체 목적 일 것입니다. 예를 들어 남성은 여성보다 범죄를 저지를 가능성이 더 높으므로이 정보에 액세스 할 수있는 거의 모든 모델이 그러한 추론을 이끌어냅니다.

그렇다고해서 남자가 일반적으로 범죄를 저지른 것 같지만 (다른 것들은 평등 한)성에 근거하여 누군가를 부분적으로 유죄 판결해야한다는 의미는 아닙니다. 오히려 우리는 단순한 결정에 관한 정보가 아니라 그러한 결정을 내릴 때 범죄에 대한 직접적인 증거를 요구해야합니다 . 또 다른 예로서, 병에 걸릴 확률이 높은 사람들이 실제로 더 높은 보험료를 지불 할 자격 이 있습니까?

따라서 차별에 관한 한,이 문제 는 모델 자체가 불공평 한 것이 아니라 윤리적 적용에 더 중점을두고 있다고 주장합니다 . 주어진 상황에서 모델을 사용할 때 차별이나 다른 불공평 한 결과가 지속되는 것을 걱정한다면 모델을 사용하지 않아야합니다.


2
나는 사회 차별을 피하기 위해 만들어진 모델이 인간보다 그 문제에서 더 잘 수행 될 것이라는 마지막 문장에 대해 논할 것이지만, 이것이 내가 여기있는 이유는 아닙니다. 사회적 차별에 대한 더 나은 정의로 게시물을 편집 할 것입니다.
lcrmorin

나는 우리의 법원 시스템이 더 많은 남성을 처벌 할 생각은 없지만 그렇게합니다. 가상의 아마존 알고리즘도 마찬가지입니다. 그들이 여성을 차별하기를 원했던 것은 의심 스럽지만, 여성은 어쨌든 여성이 덜 적합하고 차별적이라는 것을 알게되었습니다.
Aksakal

당신은 OP의 질문에서 크게 표류했습니다 : 대조 차별 n 1 : 편견에 기초한 개인 또는 그룹의 불공평 한 처우 2 : 두 개 이상의 자극이 구별되는인지 과정. [WordNet]. OP가 첫 번째 정의에 대해 요청하고 두 번째 정의에 대해 응답하고 있습니다.
Alexis

@Alexis OP가 첫 번째 정의에 대해서만 이야기하고 있다는 것이 실제로 명확하지 않습니다. 따옴표에서 : "어떻게 통계적으로 판별되는 데이터에 대한 내 모델을 수정 않지만 내가 윤리적 인 이유로 싶지 않아?" 이것은 그들이 불공평 한 특성이 아니더라도 성별에 따라 통계적으로 다른 것을 다루기를 원한다는 것을 암시하는 것처럼 보입니다. 그건 그렇고, 두 차별 개념 사이에는 뚜렷한 구분이 없습니다. 어떤 사람들은 공정한 것을 찾고 다른 사람들은 불공정 한 것을 찾습니다.
Eff

지원자 수와 프로필 측면에서 성별과 관련하여 중요한 차이점이 있습니다. 저의 목표는 프로필은 같지만 성별이 같지 않은 두 사람을 동등하게 대우하는 것입니다.
lcrmorin

6

저는 소프트웨어 관리 모범 사례를 개발하기 위해 프로젝트를 수행했습니다. 현장에서 약 50 개의 소프트웨어 팀을 관찰했습니다. 우리의 표본은 약 77 명이지만 약 백 팀을 보았습니다. 인증, 학위 등의 정보를 수집하는 것 외에도 다양한 심리적 및 인구 통계 학적 데이터를 수집했습니다.

소프트웨어 개발 팀은 성별과 관련이 없지만 성별과 밀접한 관련이있는 매우 중요한 자체 선택 효과를 가지고 있습니다. 또한 관리자는 스스로 복제하는 경향이 있습니다. 사람들은 자신이 편한 사람을 고용하고 자신에게 가장 편합니다. 사람들이인지 적으로 편향된 방식으로 평가되고 있다는 증거도 있습니다. 관리자로서 작업 시작시 신속한 도착을 높이 평가한다고 상상해보십시오. 그런 다음 평가하겠습니다. 작업이 완료되도록 신경 쓰는 다른 관리자는 중요한 것과 완전히 다른 것을 평가할 수 있습니다.

당신은 남자들이 다른 언어를 사용한다고 언급했지만, 다른 성격을 가진 사람들이 다른 방식으로 언어를 사용하는 것도 사실입니다. 인종적 언어 사용에 차이가있을 수도 있습니다. 예를 들어 하버드와 아시아의 입학에 관한 현재의 논쟁을보십시오.

이제는 소프트웨어 회사가 여성을 차별한다고 가정하지만 소프트웨어 개발 산업에서는 설명하지 않은 또 다른 형태의 성 차별이 있습니다. 인증, 학위, 재임 등의 객관적인 사항을 통제 할 때 평균 여성은 평균 남성보다 40 % 더 많은 소득을 얻습니다. 세계에는 고용 차별의 세 가지 원인이 있습니다.

첫 번째는 관리자 또는 소유자가 일부 기능을 기반으로 누군가를 고용하고 싶지 않다는 것입니다. 두 번째는 동료가 해당 기능을 가진 사람들과 함께 일하기를 원하지 않는다는 것입니다. 세 번째는 고객이 기능을 가진 사람을 원하지 않는다는 것입니다. 작업 제품이 다르고 고객의 관점과도 다르기 때문에 임금 차별이 고객에 의해 유발되고있는 것으로 보입니다. 이 같은 특징으로 인해 남성 치과 위생사가 여성보다 낮은 임금을받습니다. 또한 세계 축구 임금에서 "여기에서 태어나다"는 편견을 가지고 있습니다.

이를위한 최선의 제어는 데이터와 관련된 사회 력을 이해하는 것입니다. 자체 데이터를 사용하는 회사는 스스로 복제하는 경향이 있습니다. 그것은 매우 좋은 일이지만, 또한 직장에서 힘을 실명하게 만들 수도 있습니다. 두 번째 제어는 목적 함수를 이해하는 것입니다. 이익은 좋은 기능 일 수도 있지만 나쁜 기능 일 수도 있습니다. 객관적인 손실 함수를 선택할 때 사용되는 값이 있습니다. 마지막으로 불행한 차별이 발생하는지 확인하기 위해 인구 통계에 대해 데이터를 테스트하는 문제가 있습니다.

마지막으로, 이것은 인공 지능과 같은 해석상의 통계를 얻을 수없는 곳에서 더 큰 문제입니다. Yule의 역설을 통제하고 싶을 것입니다. 전형적인 역사적 예는 1973 년에 남성의 44 %가 UC 버클리에 입국 한 반면 여성의 35 %만이 입국했다는 사실을 발견 한 것입니다. 또한 오도되었습니다.

이것은 명백히 끔찍한 일이었고, 그래서 대학은 문제가되는 전공을 결정하기로 결정했습니다. 음, 당신이 전공을 통제했을 때, 여성을 받아들이는 데 유리한 통계적 의미있는 편향이 있다는 것이 밝혀졌습니다. 85 개 전공 중 6 개는 여자에게, 4 개는 남자에게 편향되었고 나머지는 중요하지 않았다. 차이는 여성이 가장 경쟁이 치열한 전공을 신청하고 남녀가 거의 참여하지 않는다는 점이었습니다. 남성은 경쟁이 덜한 전공에 지원할 가능성이 더 컸습니다.

Yule의 역설을 추가하면 차별을위한 더 깊은 계층이 만들어집니다. 성별 테스트 대신 직업 유형별로 성별 테스트가 있다고 상상해보십시오. 회사 전체의 성 중립 테스트를 통과 할 수 있지만 작업 수준에서는 실패 할 수 있습니다. V & V에는 여성 만, 시스템 관리에는 남성 만 채용했다고 상상해보십시오. 당신은 성 중립적으로 보일 것이고 그렇지 않을 것입니다.

이에 대한 하나의 잠재적 인 해결책은 서로 다른 객관적 기준 "양호"를 사용하는 경쟁 AI를 운영하는 것입니다. 목표는 그물을 좁히지 않고 넓히는 것입니다. 이것은 또한 관리 문헌에서 다른 문제를 피하는 데 도움이 될 수 있습니다. 남성의 3 %가 사회 경로 인 반면, 회사 사다리를 더 많이 올라가면 그 수가 크게 증가합니다. 당신은 사회 경로를 필터링하고 싶지 않습니다.

마지막으로 특정 유형의 직책에 AI 사용을 고려하지 않을 수 있습니다. 나는 지금 구직입니다. 나는 또한 걸러 내고 있다고 확신하며, 그것을 해결하는 방법을 찾지 못했습니다. 저는 매우 파괴적인 신기술에 앉아 있습니다. 문제는 내 작품이 마법의 단어와 일치하지 않는다는 것입니다. 대신에, 나는 다음 일련의 마술 단어를 가지고 있습니다. 지금은 올바른 회사에 큰 가치가 있지만 신청 한 경우 1 분 안에 자동으로 감소했습니다. 연방 기관의 CIO로 근무한 친구가 있습니다. 그는 채용 관리자가 자신의 신청서가 제출되는 것을보기 위해 기다리는 직종을 신청하여 거의 직무를 제공받을 수있었습니다. 필터로 인해 차단되지 않았습니다.

이것은 AI의 두 번째 문제를 설정합니다. 아마존이 고용하고있는 온라인 이력서에서 운동 할 수 있다면 이력서를 마법으로 쓸 수 있습니다. 사실, 저는 사람이 아닌 필터에 맞도록 이력서를 작성하고 있습니다. 또한 채용 담당자의 이메일에서 이력서의 일부가 확대되고 있고 다른 부분은 무시된다고 알릴 수 있습니다. 마치 Prolog와 같은 소프트웨어가 채용 및 채용 프로세스를 인수 한 것과 같습니다. 논리적 제약 조건이 충족 되었습니까? 예! 이것은 최적의 후보자 또는 후보자 집합입니다. 그들은 최적입니까?

귀하의 질문에 대한 사전 답변이 없으며 엔지니어에게만 문제가 있습니다.


(+1) 확실한 관찰. 나는 특히 결과의 해석 적 편향에 관한 말을 좋아하며, 객체 지향적, 즉 일부 실질적인 이익 인 사회 공학의 목표를 정의해야한다는 점만 덧붙일 것이다. 예를 들어, 남성에게 요도 카테터를 삽입 할 수있는 남자 간호사가 있으면 간호사의 50 %가 남자가 될 필요는 없습니다.
Carl

@ 데이브. 통찰력 주셔서 감사합니다. "인증, 학위, 임기 등과 같은 객관적인 것을 통제 할 때 평균 여성이 평균 남성보다 40 % 더 많은 수입을 올릴 수있는"출처를 제공 할 수 있습니까? "당신은 사회 경로를 필터링하고 싶지 않다"는 것은 무엇을 의미합니까? ?
lcrmorin

@Lcrmorin은 소시 오 패스가 승진을 추구하는 경향이있다. 데이터를 사용하고 있기 때문에 기존 계층을 복제하는 경우 사회 병리를 필터링하는 동작을 선택할 수 있습니다. 소프트웨어가 중립적이라는 믿음이 있지만 기존의 많은 명령 체인은 중립적이지 않습니다. 때때로 남자를 걸러내는 것은 실제로 남자를 걸러내는 것이 아니라, 사회 병리를 가장하는 남성의 행동을 말합니다.
Dave Harris

@Lcrmorin 저의 사무실은 약 7 백 개의 저널 기사를 포함하여 이동하면서 상자 안에 그대로 있습니다. 당시 소프트웨어 엔지니어를 연구하고 있었기 때문에이 기사는 저를 놀라게했습니다. 그러나 그것은 12 년 전이었습니다. 현장 연구를 수행하고 미래의 엔지니어를 훈련시킨 결과, 여성은 남성 지배 그룹에서 생존하기 위해 남성 행동을 선택해야하지만 남성은 여성이 가져 오는 행동을 선택하지 않아도됩니다. 내 생각에 차이점은 요구 사항 추출 프로세스를 통해 발생합니다.
Dave Harris

나는 주로 40 % 수치에 대해 회의적이었습니다. 저를 포함하여 사람들이 요즘 경험하는 것 근처에는 그리 많지 않습니다.
lcrmorin

5

이러한 종류의 모델을 구축하려면 먼저 차별 및 프로세스 결과의 기본 통계 측면을 이해하는 것이 중요합니다. 이를 위해서는 특성을 기준으로 객체를 평가하는 통계 프로세스를 이해해야합니다. 특히, 의사 결정 목적 (즉, 차별)을위한 특성의 사용과 상기 특성에 대한 프로세스 결과의 평가 사이의 관계를 이해해야한다. 우리는 다음에 주목함으로써 시작합니다.

  • 판별 (적절한 의미에서)은 결과가 해당 변수와 상관 될 때만이 아니라 결정 프로세스에서 변수가 사용될 때 발생합니다. 공식적으로, 프로세스의 결정 기능 (이 경우 등급)이 해당 변수의 함수 인 경우 변수와 관련하여 차별합니다.

  • 특정 변수에 대한 결과의 차이는 종종 해당 변수에 대한 차별이없는 경우에도 발생 합니다 . 의사 결정 함수의 다른 특성 이 제외 된 변수와 상관 될 때 발생 합니다. 제외 된 변수가 인구 통계 학적 변수 (예 : 성별, 인종, 연령 등) 인 경우 다른 특성과의 상관 관계가 어디에나 존재하므로 인구 통계 학적 그룹에 따른 결과의 차이가 예상됩니다.

  • 차별의 한 형태 인 긍정 행동을 통해 인구 통계 학적 그룹의 결과에서 차이를 줄이려고 시도하는 것이 가능합니다. 변수와 관련하여 공정 결과에 차이가있는 경우, 변수를 결정 변수로 사용함으로써 (즉, 해당 변수를 구별함으로써) "대표되지 않은"그룹을 선호함으로써 이러한 차이를 좁힐 수 있습니다 (즉, 의사 결정 과정에서 긍정적 인 결과의 비율이 낮은 그룹).

  • 특정 특성과 관련하여 차별을 피하거나 해당 특성과 관련하여 프로세스 결과를 균등화하려는 두 가지 방법을 모두 사용할 수는 없습니다. 당신의 목표는 특정 특성에 대한 결과에서 "올바른"불균형에이면 당신이 무엇을하고 있는지 ---에 대해 아이가 자신을하지 않는 당신이 목적 차별 철폐 조치에 대한 차별에 참여하고 있습니다 .

통계적 의사 결정 프로세스의 이러한 기본 측면을 이해하면이 경우 실제 목표가 무엇인지 공식화 할 수 있습니다. 특히, 비 차별적 프로세스를 원하는지, 그룹간에 결과의 불일치를 초래할 수 있는지, 또는 동일한 프로세스 결과 (또는 이와 유사한 것)를 산출하도록 설계된 차별적 프로세스를 원하는지 여부를 결정해야합니다. 윤리적으로이 문제는 차별 금지와 차별 철폐에 대한 논쟁을 모방합니다.


새로운 사람들을 모집하는 데 도움이되는 5 성급 순위와 같은 개인 데이터의 출력을 예측하는 통계 모델을 만들고 싶다고 가정 해 봅시다. 윤리적 제약으로 성 차별을 피하고 싶다고합시다. 성별과는 별개의 두 개의 프로파일이 주어지면 모델의 결과는 같아야합니다.

모델에서 부여한 등급이 제외하려는 변수 (예 : 성별)의 영향을받지 않는 것은 쉽습니다. 이렇게하려면 모형에서이 변수를 예측 변수로 제거하여 평가 결정에 사용하지 않아도됩니다. 이렇게하면 해당 변수와 별도로 엄격하게 동일한 두 개의 프로파일이 동일하게 취급됩니다. 그러나 되지 반드시 모델이 제외 된 변수와 관련되는 다른 변수에 기초하여 구별되지 않도록, 그리고 일반적 성별과 동일한 결과로 이어질 수 없습니다. 성별이 모델에서 예측 변수로 사용될 수있는 다른 많은 특성과 상관되어 있기 때문에 차별이없는 경우에도 결과가 불균형 할 것으로 예상하기 때문입니다.

이 문제와 관련하여, 고유의 성별 특성 (예, 똑바로 서있는 특성)과 성별과 단순히 상관 관계가있는 특성 (예 : 공학 학위를 가진 특성) 을 구분하는 것이 유용합니다 . 성별 차별을 피하려면 일반적으로 성별을 예측 인자로 제거하고 고유 한 성별 특성 으로 간주되는 다른 특성도 제거해야 합니다. 예를 들어, 구직자가 신청자가 오줌 서거나 앉는 지 여부를 지정하는 경우, 이는 성별과 엄격하게 동등한 특성은 아니지만 하나의 옵션으로 성별을 효과적으로 결정하므로 해당 특성을 제거 할 수 있습니다. 모형의 예측 변수로

  1. 성별 (또는 이와 관련된 모든 데이터)을 입력으로 사용하고 그 효과를 수정하거나 이러한 데이터를 사용하지 않아야합니까?

정확히 무엇을 수정 하시겠습니까? "효과 수정"이라고 말하면 성별과 관련된 예측 변수로 인해 발생하는 결과의 "불일치"를 고려하고 있다고 가정합니다. 이 경우 성별을 사용하여 결과 격차를 수정하려고하면 효과적으로 긍정적 인 행동을 취하게됩니다. 즉, 결과를 더 가깝게 가져 오기 위해 성별에 대해 긍정적으로 차별하도록 모델을 프로그래밍하는 것입니다. . 이 작업을 수행할지 여부는 모델의 윤리적 목표 (차별을 피하고 동일한 결과를 얻는 것)에 달려 있습니다.

  1. 성별에 대한 차별이 없는지 어떻게 확인합니까?

결과의 차이 만있는 것과 달리 실제 차별에 대해 이야기하는 경우 이는 구속 및 점검이 쉽습니다. 성별 (및 고유의 성별 특성)을 예측 변수로 사용하지 않는 방식으로 모델을 공식화하기 만하면됩니다. 컴퓨터는 모델에 입력하지 않은 특성을 기반으로 결정을 내릴 수 없으므로이를 제어 할 수 있으면 차별이 없는지 확인하는 것이 매우 간단합니다.

입력하지 않고 관련 특성 자체를 알아내는 기계 학습 모델을 사용하면 상황이 조금 더 어려워집니다. 이 경우에도 제거하도록 지정한 예측 변수 (예 : 성별)를 제외하도록 모델을 프로그래밍 할 수 있어야합니다.

  1. 통계적으로 판별되지만 윤리적 인 이유로 원하지 않는 데이터에 대해 모델을 어떻게 수정합니까?

"통계적으로 판별 할 수있는"데이터를 언급 할 때는 성별과 관련된 특성 만 의미한다고 가정합니다. 이러한 다른 특성을 원하지 않으면 모형에서이를 예측 변수로 제거해야합니다. 그러나 많은 중요한 특성이 성별과 상관 될 수 있음을 명심해야합니다. 모든 이진 특성은 해당 특성을 가진 남성의 비율이 해당 특성을 가진 여성의 비율과 다른 경우 성별과 상관 관계가 있습니다. (물론 이러한 비율이 가까운 경우 차이가 "통계적으로 유의미하지 않음"을 알 수 있습니다.)보다 일반적인 변수의 경우 0이 아닌 상관 조건도 매우 약합니다. 그러므로,


상관 변수를 제거하는 대안은 남성과 여성을위한 별도의 모델을 훈련시키는 것입니다. 문제는 그런 별도의 모델을 사용하는 방법입니다.
kjetil b halvorsen

지루한. 예를 들어, "성 편향은 어떻게 문제가 있는가?"와 같은 가정과 같은 장점이 있습니다. 아무도 아는 바가 없으며 사후 결과를 확인하는 대용품이 없습니다 .
Carl

1
사려 깊은 +1 "당신이해야 할 일은 성별 (및 고유의 성별 특성)을 예측 자로 사용하지 않는 방식으로 모델을 공식화하는 것입니다." 작성하기는 쉽지만 사회가 언론에 있을 때 고용과 같은 사회적 결정을위한 알고리즘을 만들기 시작 한다는 것은 소득의 역사 , 교육 성취도이전 직책 과 같은 것이 인과 적 성향의 하류 라는 것을 의미합니다 .
Alexis

4

이것은 대부분 부분 답변이 될 것입니다 (또는 전혀 답변이 없습니다).

가장 먼저 주목할 점은 @dsaxton에 완전히 동의한다는 것입니다. 모든 모델은 (적어도 일부 차별 정의에서는) 기능이므로 "차별"합니다. 문제는 모델이 요약 및 평균에 대해 작동하고 평균을 기반으로 항목을 할당한다는 것입니다. 독신 개인은 독특하며 예측과 완전히 다를 수 있습니다.

예 : 하나의 변수 연령을 기준으로 언급 된 5 개의 별 순위 를 예측하는 간단한 모델을 고려하십시오 . 나이가 같은 모든 사람 (30 명)은 같은 결과를냅니다. 그러나 그것은 일반화입니다. 30 세 이상의 모든 사람이 같은 것은 아닙니다. 그리고 모델이 다른 연령대에 대해 다른 순위를 생성하면 이미 연령대에 따라 사람들을 차별하고 있습니다. 50 세인 경우 3 위, 40 세인 경우 4 위를 가정하십시오. 실제로 40 세보다 더 잘하는 50 세의 많은 사람들이있을 것입니다. 그리고 그들은 차별받을 것입니다.


  1. 성별 (또는 이와 관련된 모든 데이터)을 입력으로 사용하고 그 효과를 수정하거나 이러한 데이터를 사용하지 않아야합니까?

모델이 다른 남성과 여성에 대해 동일한 결과를 반환하도록하려면 모델에 성별을 포함하지 않아야합니다. 성별과 관련된 모든 데이터가 포함될 것입니다. 그러한 공변량을 배제함으로써 최소한 두 가지 유형의 오류를 만들 수 있습니다. 1) 모든 남성과 여성이 모든 공변량에 균등하게 분포되어 있다고 가정합니다. 2) 성별 상관 공변량 중 일부가 등급과 관련이 있고 성별과 상관 관계가있는 경우 모델을 제외하여 모델의 성능을 크게 저하시킬 수 있습니다.

  1. 성별에 대한 차별이 없는지 어떻게 확인합니까?

한 번에 "male"을 사용하고 다른 한 번에 "female"을 사용하여 정확히 동일한 데이터에서 두 번 모델을 실행하십시오. 이것이 텍스트 문서에서 비롯된 경우 일부 단어가 대체 될 수 있습니다.

  1. 통계적으로 판별되지만 윤리적 인 이유로 원하지 않는 데이터에 대해 모델을 어떻게 수정합니까?

당신이하고 싶은 일에 달려 있습니다. 남녀 간의 평등을 강요하는 한 가지 잔인한 방법은 남성 지원자와 여성 지원자에 대해 개별적으로 모델을 실행하는 것입니다. 그런 다음 한 그룹에서 50 %를 선택하고 다른 그룹에서 50 %를 선택하십시오.

최고의 지원자가 정확히 절반의 남성과 절반의 여성을 포함하지는 않을 것이기 때문에 귀하의 예측은 대부분 어려움을 겪을 것입니다. 그러나 당신은 아마 윤리적으로 괜찮을 것입니까? -다시 이것은 윤리에 달려 있습니다. 이런 유형의 관행이 성별에 따라 차별되기 때문에 다른 방식으로 불법화되는 윤리적 선언을 볼 수있었습니다.


왜 별도로 훈련하지 않습니까?
kjetil b halvorsen

이것이 또 다른 형태의 차별을 도입하지 않겠습니까? 남자와 여자는 다른 기준에 따라 선택 될 것입니다.
Karolis Koncevičius

어쩌면 시도해 볼 가치가 있습니다. 또한 기계에 쉬운 탈출구를 제공하지 않고 남성에게 더 나은 규칙을 만들 수 있습니다.
kjetil b halvorsen

"그리고 한 그룹에서 50 %를 선택하고 다른 그룹에서 50 %를 선택하십시오." 원래 인구에 불일치가있을 때 (수와 프로파일 모두) 긍정적 인 차별로 이어지지 않습니까?
lcrmorin

2
@Lcrmorin 물론입니다. 그것이 의미하는 바는 " 성에 따라 구별되지만 다른 방식으로도 차별 될 것입니다. "
Eff

4

아마존 이야기가 보여주는 것은 편견을 피하기가 매우 어렵다는 것입니다. 아마존이이 문제로 멍청한 사람들을 고용했거나, 기술이 부족하거나, 데이터가 충분하지 않거나, 더 나은 모델을 훈련시키기에 충분한 AWS 크레딧이 없었 음을 의심합니다. 문제는 복잡한 기계 학습 알고리즘이 데이터의 패턴 학습에 매우 뛰어나고 성별 편견이 바로 그런 패턴이라는 것입니다. 모집 자들 (의식적이든 아니든)이 남성 후보자를 선호함에 따라 데이터에 편향이있었습니다. 나는 여기서 아마존이 구직자를 차별하는 회사라고 말하지 않고 수천 명의 반 차별 정책을 가지고 있으며 훌륭한 인재를 고용한다고 확신합니다. 이런 종류의 편견과 편견의 문제는 아무리 열심히 싸워도 상관없이 존재한다는 것입니다. 사람들이 편견을 갖지 않는다고 선언 할 수 있음을 보여주는 수많은 심리학 실험이 있습니다 (예 : 인종 차별 주의자). 그러나 여전히 그것을 깨닫지 않고 편견을 취합니다. 그러나 귀하의 질문에 대답하고, 편향되지 않은 알고리즘을 가지려면 이러한 종류의 편견이없는 데이터로 시작해야합니다. 머신 러닝 알고리즘은 데이터에서 보이는 패턴을 인식하고 반복하는 법을 배우므로 데이터가 편향된 결정을 기록하면 알고리즘이 이러한 편견을 배우고 증폭시킬 것입니다.

두 번째는 데이터 관리입니다. 알고리즘이 편향된 결정을 내리는 것을 배우지 못하게하려면 관심있는 그룹 (여기에서 성별)을 구별하는 데 도움이되는 모든 정보를 제거해야합니다. 이것은 성별에 대한 정보 만 제거하는 것이 아니라 성별을 식별 할 수있는 모든 정보를 제거한다는 것을 의미하며, 이는 많은 일이 될 수 있습니다. 이름과 사진과 같은 명백한 것들이 있지만 간접 이력서, 즉 이력서의 육아 휴직, 교육 (누군가가 학교에 가면 어떻게 될까?), 또는 심지어 직업 이력 (회사의 채용 담당자가 편견을 가지고 있지 않은 경우) 하지만 이전에 다른 모든 채용 담당자가 편향되어 작업 기록에 이러한 편향된 모든 결정이 반영되어 있다면 어떨까요?)

2 번과 3 번 문제에 관해서는 쉬운 답변이 없으며 자세히 답변을해볼만한 능력이 없습니다. 사회의 편견과 편견과 알고리즘 편향에 관한 많은 문헌이 있습니다. 이것은 항상 복잡하며 불행히도 이에 대한 간단한 요리법은 없습니다. Google과 같은 회사는 알고리즘에서 이러한 종류의 편견을 식별하고 방지하는 역할을하는 전문가를 고용합니다.


1
모델이 (구체적으로) 성별을 구별하는 데 도움이되는 모든 것을 제거하는 대안은 성별로 모델을 훈련시킨 다음 각 성별에 대해 한 번 예측을 예측 (또는 무엇이든) 할 때 결과를 평균화하는 것입니다.
jbowman

@jbowman 해석 결과가 거의없고 시간이 지남에 따라 내장 된 편견이 지속됩니다.
Alexis

아마존의 사례는 절대적으로 편견을 보여주지는 않습니다. 그것은 단순히 스테레오 타입 정확도 로 알려진 현상 ​​일 수 있습니다 . 때때로 특성은 실제로 인구 통계 학적 변수와 관련이 있습니다. 다음은 예입니다. 당신은 사람 X가 젊고 중산층이라는 것을 알고 있습니다. 그들이 폭력 범죄를 저지를 가능성은 얼마나됩니까? 나는 이제 당신에게 또 다른 정보를 제공합니다 : 그들의 성. 이것이 가능성을 바꾸는가? 물론이야. 그 편견 입니까? 당연히 아니지. 스테레오 타입 정확도
Eff

1
@ Eff 그리고 이것은 차별이 일어나는 방법입니다 ... 여성들은 평균적으로 돈을 덜 버는 것입니다. 요점 차별적 알고리즘을 가지고 있지의가 있다는 것입니다 당신이하지 말아야 평균이 작동하는 것 같다 경우에도 decissions을 만들기 위해 이러한 정보를 사용합니다. 또한 사회적 편견으로 인해 종종 효과가있는 경우 (예 : 남성에게 더 많은 돈을 지불하기 위해 텐트를 치르면 아프리카 계 미국인은 백인 미국인에 비해 정확히 같은 범죄에 대해 감옥에 갈 가능성이 높음) 고정 관념 그룹의 특성 때문에 고정 관념이 아닙니다.

1
@ 팀 아니. 당신이 말하는 것에 약간의 진실이있을 수 있지만, 대체로 사실이 아닙니다. Lee Jussim의 "사회적 인식과 사회적 현실 : 정확성이 편견과 자기 성취 예언을 지배하는 이유" 책을 읽어 보시기 바랍니다. 이 주요 책에서 저자는 기본적으로 고정 관념, 편견, 자기 이행 예언 등에 대한 과학 문헌의 전체 본문을 검토합니다.
Eff

1
  1. 성별 (또는 이와 관련된 모든 데이터)을 입력으로 사용하고 그 효과를 수정하거나 이러한 데이터를 사용하지 않아야합니까?

이 질문에 대해 다음과 같이 요약 할 수있는 몇 가지 의미 가 있습니다. 사회 공학자가되고 싶습니다. 사회가 아프고 치료가 필요하다고 결정했기 때문에 현 상태를 바꾸는 역할을하는 운동가?이에 대한 명백한 대답은 그러한 변화가 유익한 지 아닌지에 달려 있습니다. 예를 들어, "간호 직원의 남녀 평등에서 얻는 것은 무엇입니까?" 소변 카테터를 남성에게 삽입 할 수있는 남성 간호사가 한 명 이상 있으면 간호사의 50 %가 남성 일 필요는 없을 것입니다. 따라서 사회 공학 접근 방식은 알려진 성 편견과 다른 문화, 상황 및 문제를 조사하고 그 편견의 근본 원인을 변경함으로써 얻을 수있는 기능적 이점을 제시합니다. 이것은 의사 결정 과정에서 필수적인 단계입니다. 이제 1 번 질문에 대한 답은 '아니오'입니다. 즉, 사회가 고쳐야한다고 결정한 후에는 여성 지원자에게 별이나 분수를 추가하기 만하면됩니다 (아래 참조). 이 행동은 본질적으로 차별적 인 긍정적 인 행동이기 때문에 원하는 바에 매우주의하십시오. 새로운 인공 지능 표준이 새로운 기능 규범으로 설정되면 모든 AI 결과는 새로운 고용 규범을 반영하도록 변경 될 것입니다.

  1. 성별에 대한 차별이 없는지 어떻게 확인합니까?

평가가 할당 된 후 간단하게 사후 분석을 수행하여 남성과 여성의 등급 분포를 확인하고 비교할 수 있습니다.

  1. 통계적으로 판별되지만 윤리적 인 이유로 원하지 않는 데이터에 대해 모델을 어떻게 수정합니까?

이것은 사실, 즉 사후에 불가피하게 수행됩니다 . 예측도 필요하지만, 가장 필요한 예측 유형은 사회 엔지니어의 가정이 무엇인지를 비판적으로 조사하려는 공동의 시도입니다. 즉, 모든 성 편견을 제거하는 것이 사회 학적으로 정당화 될 수 있다고 가정하면 (남녀와 동일한 경험적 분포를 따르도록 여성 등급을 조정하는 것입니다). 교육 사업 에서이를 곡선 채점 이라고 합니다.. 또한 성 편견을 완전히 제거하는 것이 바람직하지 않을 수 있다고 가정하고 (그렇지 않으면 너무 파괴적 일 수 있음) 편견을 부분적으로 제거 할 수 있습니다 (예 : 각 원주민 여성의 평균 가중 평균) 등급 및 전체 보정 등급 (할당 된 무게에 상관없이 가장 해롭거나 가장 유리한 것으로 간주 됨).

일부 분야에서는 여성 후보자가 상대적으로 부족하기 때문에 정책을 단독으로 고용함으로써 성별 불균형을 적절하게 변경할 수 없습니다. 예를 들어, 폴란드에서는 IT 학생의 14.3 %가 2018 년 에 여자 였으며 호주에서는 17 % 였습니다. 기술 집약적 산업에서 여성을 고용하는 것은 문제가되었다 ( 기술 집약적 산업 에서 비즈니스 역할을 담당하는 여성은 남성의 31 %에 비해 여성의 53 %, 다른 산업에 높은 비율로 떠남). 정책 만 고용하는 것보다 더 중요합니다. 먼저 직장에서 특정 비율의 여성을 확보 할 때 얻을 수있는 실질적인 이점을 찾아야하며, 2016 년 과 같은 몇 가지 힌트가 있습니다., 기업 이사회 여성 (16 %)은 남성 대응 기업 (9 %)보다 거의 두 배로 518 명의 Forbes Global 2000 회사에서 전문 기술 경험을 가질 가능성이 높습니다. 따라서 기술 절약은 남성 순자산보다 여성에게 더 많은 기여를하는 것으로 보입니다. 이 논의에서 성별 특정 가정을 만들기 전에 고용 정책이 작지만 중요하지만 부분적이며 아마도 가장 중요하지 않은 특정 정책의보다 구체적인 구체적 혜택을 식별하기 위해 실질적인 노력을 기울여야한다는 것이 명백해야한다 출발점. 후자는 도덕적으로 나쁘고 고용에서 성 편견의 근본 원인이 될 수 있기 때문에 후자의 고용 유지 가능성이 높습니다.

저의 경영 경험에 따르면 작업 출력의 작은 변화 (예 : 10-20 %)조차도 결국 대기자 명단을 제거하는 데 매우 효과적입니다. 대기자 명단이 작은 변화보다 약간 빨리 단축 될 것이지만, 직원들이 그 문을 걸어서 걸어 가기를 바라면서 그 자리에 서 있기 때문에 혼란 스러울 것입니다. 즉, 사회 공학을하기로 결정한 경우 전체 수정을 시도하는 것은 해로울 수 있습니다. 그런 식으로 작동하지 않습니다. 범선에서 급격한 코스 수정으로 시도해보십시오. 수영 레슨을 시작하면 바람을 피울 수 있습니다. 성 편견 치료 (처방이 맞는 경우)에 해당하는 것은 여성 만 고용하는 것입니다. 그것은 문제를 해결하고 다른 사람들을 만들 것입니다. 그래서,

요약하면, 효과적인 사회 공학은 복잡한 상황에 대한 전체 론적 접근을 필요로하며, 문제가있을 수 있음을 식별하는 것만으로는 문제가 있다고 말하지 않으며, 그 원인을 알려주지 않으며, 문제를 해결하는 방법을 알려주지 않으며 실제로 우리가 생각하는 모든 것은 우리가 생각하는 모자를 써야한다는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.