부분적으로“알 수없는”데이터로 분류


11

숫자 벡터를 입력으로 사용하고 클래스 레이블을 출력으로 제공하는 분류기를 배우고 싶다고 가정 해보십시오. 내 훈련 데이터는 많은 수의 입력-출력 쌍으로 구성됩니다.

그러나 일부 새 데이터를 테스트 할 때이 데이터는 일반적으로 부분적으로 만 완료됩니다. 예를 들어 입력 벡터의 길이가 100 인 경우 요소 중 30 개에만 값이 제공되고 나머지는 "알 수 없음"입니다.

예를 들어, 이미지의 일부가 막힌 것으로 알려진 이미지 인식을 고려하십시오. 또는 데이터의 일부가 손상되었다고 알려진 일반적인 의미의 분류를 고려하십시오. 모든 경우에, 나는 데이터 벡터의 어떤 요소가 알려지지 않은 부분인지 정확히 알고 있습니다.

이런 종류의 데이터에 적합한 분류기를 배우는 방법이 궁금합니다. "알 수없는"요소를 임의의 숫자로 설정할 수는 있지만 알려진 요소보다 더 많은 알 수없는 요소가있는 경우 좋은 해결책처럼 들리지 않습니다. 또는 교육 데이터의 요소를 "알 수 없음"으로 임의로 변경하고 전체 데이터가 아닌 이들을 사용하여 학습 할 수 있지만 알려진 및 알려지지 않은 요소의 모든 조합에 대한 철저한 샘플링이 필요할 수 있습니다.

특히 신경망에 대해 생각하고 있지만 다른 분류 자에게 열려 있습니다.

어떤 아이디어? 감사!



반 감독 학습은 훈련 데이터에 완전히 레이블이없는 경우가 더 많다고 생각합니다. 필자의 경우 모든 교육 데이터에 레이블이 지정되어 있지만 테스트 데이터의 개별 부분은 "알 수 없음"입니다.
Karnivaurus

사다리 네트워크와 세미 감독 학습 : github.com/CuriousAI/ladder
itdxer

답변:


2

신경망과 함께 작동시키는 합리적인 방법이 있다고 생각합니다.

나는 전에 그것을 보지 못했지만 이것은 숨겨진 뉴런 대신 입력 뉴런에서 Dropout (Neural Networks에서 잘 알려진 정규화 방법) 을 수행하는 것과 매우 유사합니다 . 나는 일반적으로 그것을하는 것이 좋은 생각이라고 생각하지 않지만, 당신이 (당신의 경우처럼) 강요 당한다면 적어도 이론적으로 작동하는 것으로 충분히 가깝습니다.


1

나는 모든 분류 자와 함께 작동하는 몇 가지 선택이 있다고 생각합니다.

  • 훈련 세트의 평균 또는 중앙값 또는 입력의 관측 된 부분에서 예측 된 일부 값과 같은 단일 값으로 결 측값을 대치하거나 난수 또는 상수를 사용하십시오.
  • 미지수에 대해 여러 가지 다른 값을 사용하고 결과를 집계 (예 : 평균화)

그 외에도 트리 기반 분류 자 ​​(예 : 임의의 포리스트)를 사용할 수 있으며, 트리가 누락 된 기능에 대한 분할을 평가해야하는 경우 데이터를 두 하위 노드로 전달할 수 있습니다.

(엑스,와이)엑스와이엑스엑스그리고 그 대치의 확률에 의해 가중 된 결과의 평균을 구합니다. 이는 선형 분류 분석 모델과 같은 일부 분류기의 경우 분석적으로 닫힌 형태로 또는 대략 볼츠만 기계 또는 이의 깊은 변형 (피드 포워드 신경망과 관련된)의 미지수를 샘플링하여 대략적으로 수행 할 수 있습니다.


나는 그것이 효과가 있다고 생각하지 않습니다. 컴퓨터 비전의 전형적인 예를 사용하면, 이미지의 각 픽셀은 물체의 다른 부분과 연관 될 수 있습니다. 예를 들어, 이미지 1의 픽셀 (50,50)은 고양이의 눈이지만 고양이는 이미지 2에서 약간 움직이므로 (50, 50)은 배경의 픽셀 일뿐입니다. NA의 위치, 즉 무작위 폐색은 관찰에 따라 다르며 대치가 작동하지 않습니다.
horaceT 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.