불확실한 데이터로지도 학습?


11

불확실한 데이터 셋에지도 학습 모델을 적용하기위한 기존의 방법론이 있습니까? 예를 들어 클래스 A와 B가있는 데이터 세트가 있다고 가정 해 봅시다.

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

머신 러닝 모델을 어떻게 훈련시킬 수 있습니까? 감사.

답변:


11

귀하의 데이터에 귀속되는 수치 적 품질로서,이 "확실성"이 반드시 가중치로 사용될 수 있다고 생각합니다. "확실성"점수가 높을수록 의사 결정 기능에 대한 데이텀의 가중치가 증가합니다.

많은지도 학습 알고리즘이 가중치를 지원하므로 사용하려는 가중치 버전을 찾아야합니다.


2
(+1) 본질적으로 가중치는 포인트의 "복제"역할을하는 경향이 있기 때문에 아마도 모든 알고리즘은 가중 버전으로, 예를 들어 OP 예제에서 [5,8,10] 사본을 전달할 수 있습니다. [50,80,100] %의 확실성을 반영한 3 점. (이것은 원칙적으로 수행 될 수있는 것처럼 진정으로 필요하지 않아야하며, 알고리즘의 해당 가중 버전이 있어야합니다.)
GeoMatt22

5

레이블 A 또는 B를 사용하는 대신 레이블을 연속적인 확실성 값으로 대체 할 수 있습니다. 예를 들어, 은 확실하게 에 해당하고 은 확실하게 , 은 자신에 해당하는 40 % 확신은 입니다. 그런 다음 클래스 또는 를 예측하는 대신 하나 또는 다른 것으로 생각하는 정도에 따라 과 사이의 점수를 출력 하는 모델을 사용 하십시오 (및이 점수가> 또는 <1/2인지에 따라 임계 값을 매기십시오). 이렇게하면 분류 문제가 회귀 문제로 분류됩니다 (분류기로 되돌아가는 임계 값).1AB 0.6 A A B 0 10B0.6AAB01

예를 들어 선형 모델을 를 (여기서 는 위의 확실성)입니다. 그런 다음 일부 데이터를 테스트하려면 모델에 연결하고 이면 레이블 출력 하고 그렇지 않으면 . β0+β T 1 xp(A|x)Aβ0+β T 1 x>0Blogp(A|x)p(B|x)=logp(A|x)1P(A|x)β0+β1Txp(A|x)Aβ0+β1Tx>0B


따라서 다중 클래스 분류 문제가있는 경우 대상을 클래스 수와 같은 길이의 벡터로 설정할 수 있습니까?
hyperdo 2012 년

확실성의 합이 100 %라고 가정 할 때 클래스 수 -1; 이 예는 로지스틱 회귀와 유사합니다. 많은 분류 기가 점수를 산출합니다 (예 : 일부 모델에서 p (class | data)의 추정치). 이 모든 대답은 클래스를 직접 예측하는 대신 확실성을 점수로보고 대신 예측하는 것입니다. 그런 다음 점수로 무언가를하십시오.
배트맨
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.