«semi-supervised» 태그된 질문


4
“반 감독 학습”– 이것이 과적입니까?
Kaggle 경쟁에서 승리 한 솔루션에 대한 보고서를 읽고있었습니다 ( Malware Classification ). 보고서는이 포럼 게시물 에서 찾을 수 있습니다 . 문제는 열차 세트에 10000 개의 요소, 테스트 세트에 10000 개의 요소가있는 분류 문제 (9 개의 클래스, 메트릭은 로그 손실)였습니다. 경쟁하는 동안 모델은 테스트 세트의 30 %에 대해 평가되었습니다. 또 다른 …

3
양성 사례 만 훈련으로하여 결과를 예측하는 방법은 무엇입니까?
간단하게하기 위해 스팸 / 스팸이 아닌 전자 메일의 고전적인 예를 작업하고 있다고 가정하겠습니다. 20000 개의 이메일이 있습니다. 이 중 2000은 스팸이라는 것을 알고 있지만 스팸이 아닌 전자 메일의 예는 없습니다. 나머지 18000이 스팸인지 아닌지를 예측하고 싶습니다. 이상적으로, 내가 찾은 결과는 전자 메일이 스팸 일 확률 (또는 p- 값)입니다. 이 상황에서 …

4
의사 레이블을 사용하는 것이 결과에 사소한 영향을 미치는 이유는 무엇입니까?
저는 반 감독 학습 방법을 조사 해왔고 "의사 라벨링"이라는 개념을 접했습니다. 내가 이해하는 것처럼 의사 레이블을 사용하면 레이블이없는 데이터뿐만 아니라 레이블이있는 데이터 세트가 있습니다. 먼저 레이블이 지정된 데이터에 대해서만 모델을 학습시킵니다. 그런 다음 해당 초기 데이터를 사용하여 레이블이없는 데이터를 분류 (임시 레이블 첨부)합니다. 그런 다음 레이블이 지정된 데이터와 레이블이없는 데이터를 …


2
불일치 조치를위한 가중치를 찾는 방법
클러스터링에 사용할 수있는 비 유사성 측정에 대한 속성 가중치를 배우고 싶습니다. 나는 몇 가지 예제가 (동일한 클러스터에 있어야합니다) "와 유사한"뿐만 아니라 몇 가지 예로 들어있는 객체의 쌍 "유사하지"있는 객체의 쌍은 (안을 동일한 클러스터에 있어야 함). 각 객체에는 여러 가지 속성이 있습니다. 원하는 경우 각 객체를 차원 벡터의 피처 로 생각할 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.