머신 러닝의 바이어스 된 데이터


18

데이터 선택에 의해 이미 (심하게) 바이어스 된 데이터로 Machine Learning 프로젝트를 진행하고 있습니다.

하드 코딩 된 규칙 집합이 있다고 가정 해 봅시다. 사용할 수있는 모든 데이터가 해당 규칙에 의해 이미 필터링 된 데이터 인 경우이를 대체하기 위해 기계 학습 모델을 어떻게 구축합니까?

일을 명확히하기 위해 가장 좋은 예는 신용 리스크 평가 일 것입니다 . 과제는 지불을하지 못할 가능성이있는 모든 고객을 필터링하는 것입니다.

  • 이제, 당신이 가지고있는 유일한 (표시된) 데이터는 규칙 집합에 의해 승인 된 클라이언트로부터 온 것입니다. 수락 한 후에 만 ​​누군가가 지불하는지 (분명히) 알 수 있기 때문입니다. 당신은 규칙 세트가 얼마나 좋은지, 그리고 그것이 지불 된 것에서 지불되지 않은 분배에 얼마나 많은 영향을 줄지 모릅니다. 또한 규칙 세트로 인해 거부 된 클라이언트의 레이블이없는 데이터가 다시 거부되었습니다. 따라서 해당 고객이 수락 된 경우 어떤 일이 있었는지 알 수 없습니다.

예를 들어 다음 규칙 중 하나 일 수 있습니다. "고객 연령이 18 세 미만인 경우 허용하지 않음"

분류기는 이러한 규칙에 의해 필터링 된 클라이언트를 처리하는 방법을 배울 수있는 방법이 없습니다. 분류기는 여기서 어떻게 패턴을 배우도록되어 있습니까?

이 문제를 무시하면 모델이 이전에는 없었던 데이터에 노출 될 수 있습니다. 기본적으로 x가 [a, b] 밖에있을 때 f (x)의 값을 추정하려고합니다.


8
신용 리스크 평가에서 일반적으로 처리되는 방식 은 규칙에 따라 특정 비율의 지원자를 필터링 하지 않는 것 입니다. 소수의 지원자가 무작위로 인정되어 그와 같이 표시됩니다.
Matthew Drury

이것은 정말 알아두면 좋습니다. 어쩌면 나는 똑같은 일을 할 수도 있습니다.
Laksan Nathan

1
이 문제를 전문가가 아닌 사람들에게 설명하면 구름 (현실)과 구름 (모델)에 가까운 다각형을 그립니다. 가양 성 오류와가 음성 오류를 표시합니다. 모델을 개선하기 위해 두 가지 오류가 모두 필요하다는 점은 시각적으로 명확하므로 클라우드를 더 잘 근사화합니다.
MSalters

지금 프리젠 테이션 준비 중입니다. 이 비유는 정말 편리합니다. 감사합니다!
Laksan Nathan

이것을 탐사 탐사 딜레마라고합니다.
seanv507

답변:


12

표본이 아닌 데이터의 분포가 모델이 훈련 / 테스트 된 데이터의 분포와 크게 다르면 최상의 모델조차도 크게 실패 할 수 있습니다.

나는 당신이 할 수있는 최선의 방법은 가지고있는 레이블이있는 데이터로 모델을 훈련시키는 것이지만 모델을 해석 가능하게 유지하려고 노력합니다. 그것은 아마도 단순한 모델에만 국한되는 것을 의미합니다. 그런 다음 필터링되지 않은 모집단에서 모델이 얼마나 잘 작동하는지 추정하기 위해 모델에서 학습 한 규칙이 이전 규칙과 상호 작용하는 방식을 추론 할 수 있습니다.

예를 들어, 모델에서 레이블이 지정된 데이터 세트에서 클라이언트가 젊을수록 기본값 일 가능성이 높다고 가정합니다. "클라이언트의 연령이 18 세 미만인 경우 허용하지 않음"의 이전 필터를 제거하면 모델이 제대로 작동한다고 가정하는 것이 합리적 일 수 있습니다.


4

나는 그 질문을 완전히 이해하지는 못하지만, 내가 이해하는 한, 이미 본 샘플의 영역 밖에있는 샘플을 예측하기 위해 분류기를 훈련시키는 방법을 묻는 것입니다. 이것은 일반적으로 말해서 내가 아는 한 불가능합니다. 머신 러닝 이론은 "실험적 위험 최소화"라는 아이디어를 기반으로합니다. 이는 학습 세트가 샘플 및 레이블에 대한 실제 분포를 대략적으로 추정 한 것으로 가정합니다. 해당 가정을 위반하면 실제로 보장 할 수있는 것은 아닙니다.

레이블이없는 데이터에 대해 언급합니다.이 방법으로 문제를 해결할 수 있을지 모르겠지만, 반지도 학습에는 레이블이있는 데이터와 레이블이없는 데이터가 모두 제공되는 분류자를 배우려고하는 많은 방법이 있습니다. , 형질 도입 SVM).


내 문제에 대한 "해결책"이 없다는 데 동의합니다. 그러나 이러한 종류의 문제를 다루는 방법에 대한 실질적인 조언이있을 수 있습니다.
Laksan Nathan

2

규칙에 따라 데이터 기능 보강 을 수행 할 수 있습니다 . 양수 샘플을 복사하고 나이를 17로 변경 한 다음 음수 샘플로 표시합니다.

이 절차가 반드시 모든 데이터 세트에 대해 사소하거나 유용한 것은 아닙니다. 나는 NLP 데이터로 작업하고 그 도메인에서 잘하는 것이 까다 롭습니다. 예를 들어 연령과 관련된 다른 기능이 있으면 비현실적인 샘플이 될 수 있습니다. 그러나, 뭔가에 시스템을 노출 할 수있는 길을 제공 같은 데이터 세트 안으로 들어가지는 못했습니다 샘플을.


데이터에 노이즈를 추가하면이 문제를 해결할 수 있습니다. 그러나 클라이언트 데이터를 쉽게 분류 할 수있는 경우는 거의 없습니다. 나는 그것이 지식의 편향적 소급 충돌을 야기하는 영역 지식 "편견"출력-집단적 / 주관적 인식을 다시 초래할 정도로 그것을하지 않을 것이다.
Laksan Nathan

2

비슷한 상황에서 우리에게 효과가 있었던 것은 약간의 강화 학습 (탐사 및 악용)을하는 것입니다. 규칙 기반 모델 외에도, 우리는 작은 가능성으로 모델의 응답을 변경하는 탐색기를 실행했습니다. 따라서 모델이 17 세의 카드를 권장하지 않는 경우 탐색기는 모델의 결정하고 카드를 발급하십시오. 이러한 경우에 따라 미래 학습 모델에 대한 학습 데이터를 생성하여 탐색기에서 17 세에게 발급 된 카드가 기본이 아니 었는지 여부에 따라 17 세의 카드를 추천하는 데 사용할 수 있습니다. 기존 모델의 편견 밖에서 작동 할 수있는 시스템을 구축하십시오.


이러한 경우가 특정 재무 위험과 관련이 있기 때문에 장기적으로 새로운 패턴을 드러내는 단계별 접근 방식이 될 것입니다. 당신이 언급 한대로 기본적으로 탐색-취약성 트레이드 오프. 이것은 분명히 프로젝트에서 고려 될 것입니다.
Laksan Nathan

2

실제적인 관점에서, 현재 시스템에서 불가능한 경우 (무료 점심 없음)에 대해 무언가를 예측하도록 모델에 요청하는 것은 어렵거나 비합리적입니다.

이 문제를 피하는 한 가지 방법은 현재 (배포 된) 시스템에 무작위 화를 추가하는 것입니다.

일단 시스템 담당자가이를 수행하도록 설득하면 중요도 샘플링 과 같은 정책 외 평가 방법을 사용하여 "가정"질문을 할 수 있습니다. 예를 들어, 현재 규칙에 의해 삭제 된 사람들이 크레딧을받을 수 있도록 허용한다면 예상되는 신용 위험은 무엇입니까? 해당 모집단에 대한 (편향된) 예측 모델의 효과를 시뮬레이션 할 수도 있습니다. 이러한 종류의 방법에 대한 좋은 참고 문헌은 반 사실 학습과 추론에 관한 Bottou의 논문 입니다.


감사합니다. 나는 그것을 통해 시간이 걸릴 것입니다.
Laksan Nathan

1

고전적인 통계적 대답은 선택 과정이 데이터에 있고 모델에 의해 기술 되거나 선택이 무작위라면 파라 메트릭 모델이 정확하게 고려한다는 것입니다. Donald Rubin paper 추론 및 결측 데이터 (1976)를 참조하십시오. 모델에 데이터 선택 메커니즘을 포함시켜야합니다. 이것은 순수한 머신 러닝보다 파라 메트릭 추론이 더 나은 분야입니다.


1

이것은 사후 딜레마와 유사합니다. 선과 악 (데이터)의 비율이 죽으면 (필터) 지옥 (class) 대신 하늘에 도달하기에 충분한 비율입니다. 여기서, 죽음은 필터 역할을하며지도 학습 계획에 대한 결 측값을 초래합니다.

결 측값 문제와 '편견 데이터'문제를 명확히하고 싶습니다. 바이어스 된 데이터와 같은 것은 없으며, 해당 데이터를 설명하는 '바이어스 모델'과 같은 것이 있지만 데이터 자체는 바이어스되지 않고 단순히 누락 된 것입니다. 누락 된 데이터가 관측 가능한 데이터와 의미있는 상관 관계가있는 경우 편향되지 않은 모델을 학습하고 예측 가능한 결과를 얻을 수 있습니다.

누락 된 데이터가 관찰 가능한 데이터와 완전히 관련이없는 경우 '알지 못하는 것을 모르는 경우'입니다. 감독 또는 비지도 학습 방법을 사용할 수 없습니다. 문제는 데이터 과학의 영역 밖입니다.

따라서 의미있는 솔루션을 위해 누락 된 데이터가 관찰 가능한 데이터와 상관되어 있다고 가정합니다. 우리는 상기 상관 관계를 이용할 것이다.

이러한 문제를 해결하려는 여러 데이터 마이닝 알고리즘이 있습니다. Bagging-n-Boosting과 같은 'Ensemble 방법'또는 Apriori 및 FP-growth와 같은 '빈번한 패턴 마이닝'알고리즘을 시도 할 수 있습니다. 강력한 통계에서 방법을 탐색 할 수도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.