원격 감독,자가 교육,자가 감독 학습 및 약한 감독간에 차이가 있습니까?


12

내가 읽은 것에서 :


먼 감독 :

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

자기 훈련 :

여기에 이미지 설명을 입력하십시오


자가 학습 ( 예이츠, 알렉산더 ( Yates, Alexander) 등 "텍스트 관리자 : 웹에서 공개 정보 추출") 휴먼 언어 기술의 진행 : 북미 계산 언어 협회 협회 : 시연. 전산 언어 협회, 2007. ) :

학습자는 두 단계로 작동합니다. 먼저 자체 교육 데이터에 자동으로 양수 또는 음수 레이블을 붙입니다. 둘째,이 레이블이 지정된 데이터를 사용하여 Naive Bayes 분류기를 훈련시킵니다.


약한 감독 (Hoffmann, Raphael, et al. "중복 관계의 정보 추출에 대한 지식 기반의 약한 감독.") .) :

종종 "약한"또는 "원거리"감독이라고하는보다 유망한 접근 방식은 데이터베이스의 내용을 해당 텍스트와 경험적으로 일치 시켜서 고유 한 교육 데이터를 만듭니다.


자체 학습이 레이블 휴리스틱이 훈련 된 분류 자라는 점에서 약간 다르다는 점을 제외하고는 모두 나에게 동일하게 들립니다. 그러나 Yao, Limin, Sebastian Riedel 및 Andrew McCallum. " 표지 된 데이터가없는 집단 간 문서 관계 추출. "2010 년 자연 언어 처리 경험적 방법론 회의. 전산 언어학 협회, 2010. 먼 감독 == 자기 훈련 == 약한 감독.

또한 다른 동의어가 있습니까?


흥미로운 질문입니다. 이것이 데이터 과학에 속할 수 있습니까?
goangit

@goangit 아마이 웹 사이트의 좋은 덩어리처럼;)
Franck Dernoncourt

답변:


7

다른 모든 용어에는 두 가지 측면이 있습니다. 1] 학습 데이터 획득 프로세스 2] 자를 학습시키는 알고리즘f

f

전통적으로,지도 학습에 관한 머신 러닝 논문에서, 논문은 훈련 데이터가 이용 가능하고 그 가치에 대해 암묵적으로 가정한다는 것을 알게 될 것입니다. 일반적으로 레이블이 정확하고 레이블에 모호함이 없다고 가정합니다 훈련 데이터의 인스턴스에 제공됩니다. 그러나 멀리 떨어져 있거나 약한 감독 서류를 가지고있는 사람들은 교육 데이터에 부정확 한 레이블이 있으며 일반적으로 업무에서 강조하고 싶은 것은 부정확 한 레이블 사용의 명백한 단점에도 불구하고 좋은 결과를 얻는다는 것입니다. 추가 필터링 프로세스 등을 통해 부정확 한 레이블 문제를 극복하고 일반적으로 논문에서 이러한 추가 프로세스가 중요하고 유용하다는 점을 강조하고 싶습니다.) 이것은 "약한"이라는 용어를 일으켰습니다. 또는 훈련 데이터의 레이블이 정확하지 않음을 나타 내기 위해 "거리" 이것이 반드시 분류기의 학습 측면에 영향을주는 것은 아닙니다. 이 사람들이 사용하는 분류기는 여전히 암시 적으로 레이블이 정확하고 훈련 알고리즘이 거의 변경되지 않는다고 가정합니다.

반면에 자기 훈련은 그런 점에서 다소 특별하다. 이미 살펴본 바와 같이 자체 분류기에서 레이블을 가져오고 약간의 피드백 루프를 통해 수정합니다. 일반적으로, 본 논문에서는 분류자가 전체 데이터에 대한 훈련 데이터로부터 도출 된 유도 추론 인 "유도"알고리즘에 대해 약간 큰 범위에서 감독 분류기를 연구한다. 사람들은 우리가 변형 추론이라고 부르는 또 다른 형태를 연구했습니다. 여기서 일반적인 추론은 알고리즘의 출력이 아니지만 알고리즘은 훈련 데이터와 테스트 데이터를 모두 입력으로 취하여 테스트 데이터에 레이블을 생성합니다. 그러나 사람들은 왜 유도 학습 내에서 유도 추론을 사용하여 더 큰 훈련 데이터가있는 분류기를 얻지 않는지 알아 냈습니다.

바라건대, 나는 당신을 더 혼란스럽게 만들지 않았고, 자유롭게 의견을 말하고 필요한 경우 더 많은 설명을 요구합니다.

[1] 유용하다 - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf


감사합니다. 귀하의 답변은 매우 흥미 롭습니다! 자기 학습은 어떻습니까? 먼 / 약한 감독과 동일합니까?
Franck Dernoncourt

1
예. 레이블이 부정확 한 출처와 별도로 얻은 다음 감독되는 분류 자에게 제공되므로 자체 학습과 먼 / 약한 감독 사이에 차이가 없습니다.
TenaliRaman
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.