데이터 선택에 의해 이미 (심하게) 바이어스 된 데이터로 Machine Learning 프로젝트를 진행하고 있습니다.
하드 코딩 된 규칙 집합이 있다고 가정 해 봅시다. 사용할 수있는 모든 데이터가 해당 규칙에 의해 이미 필터링 된 데이터 인 경우이를 대체하기 위해 기계 학습 모델을 어떻게 구축합니까?
일을 명확히하기 위해 가장 좋은 예는 신용 리스크 평가 일 것입니다 . 과제는 지불을하지 못할 가능성이있는 모든 고객을 필터링하는 것입니다.
- 이제, 당신이 가지고있는 유일한 (표시된) 데이터는 규칙 집합에 의해 승인 된 클라이언트로부터 온 것입니다. 수락 한 후에 만 누군가가 지불하는지 (분명히) 알 수 있기 때문입니다. 당신은 규칙 세트가 얼마나 좋은지, 그리고 그것이 지불 된 것에서 지불되지 않은 분배에 얼마나 많은 영향을 줄지 모릅니다. 또한 규칙 세트로 인해 거부 된 클라이언트의 레이블이없는 데이터가 다시 거부되었습니다. 따라서 해당 고객이 수락 된 경우 어떤 일이 있었는지 알 수 없습니다.
예를 들어 다음 규칙 중 하나 일 수 있습니다. "고객 연령이 18 세 미만인 경우 허용하지 않음"
분류기는 이러한 규칙에 의해 필터링 된 클라이언트를 처리하는 방법을 배울 수있는 방법이 없습니다. 분류기는 여기서 어떻게 패턴을 배우도록되어 있습니까?
이 문제를 무시하면 모델이 이전에는 없었던 데이터에 노출 될 수 있습니다. 기본적으로 x가 [a, b] 밖에있을 때 f (x)의 값을 추정하려고합니다.