진실은 무엇인가


29

기계 학습 의 맥락에서 , 나는 지상 진실 이라는 용어 가 많이 사용되는 것을 보았습니다 . 나는 많은 것을 검색했고 Wikipedia 에서 다음 정의를 찾았습니다 .

기계 학습에서 "지상 진실"이라는 용어는 감독 학습 기술에 대한 훈련 세트 분류의 정확성을 의미합니다. 이는 연구 가설을 입증하거나 반증하기 위해 통계 모델에서 사용됩니다. "지상 진실"이라는 용어는이 테스트에 대한 적절한 객관적인 (가능한) 데이터를 수집하는 프로세스를 나타냅니다. 금 본위제와 비교하십시오.

베이지안 스팸 필터링은지도 학습의 일반적인 예입니다. 이 시스템에서 알고리즘은 스팸과 스팸 이외의 차이점을 수동으로 학습합니다. 이는 알고리즘 학습에 사용 된 메시지의 기본 사실에 따라 달라집니다. 기본 사실의 부정확성은 결과 스팸 / 스팸이 아닌 결과의 부정확성과 관련이 있습니다.

요점은 실제로 그것이 의미하는 바를 얻을 수 없다는 것입니다. 는 IS 것을 레이블은 각각에 사용되는 데이터 객체 또는 대상 기능 각각에 라벨을 제공 데이터 객체 , 그렇지 않으면 아마도 뭔가?

답변:


25

기본 진실은 교육 및 테스트 예제의 대상 변수에 대해 측정 한 것입니다.

거의 항상 레이블과 동일하게 안전하게 취급 할 수 있습니다.

경우에 따라 레이블과 정확히 동일하지 않습니다. 예를 들어 데이터 세트의 기능을 보강하는 경우 기본 사실 (실제 측정 값)과 기능 보강 된 예제가 할당 한 레이블과 어떻게 관련되어 있는지에 미묘한 차이가 있습니다. 그러나이 차이는 일반적으로 문제가되지 않습니다.

진실은 틀릴 수 있습니다. 측정이므로 오류가있을 수 있습니다. 일부 ML 시나리오에서는 자동화하려는 전문적인 의견이나 분석과 같은 근본적인 객관적인 진실을 정의하기 어려운 주관적인 측정 일 수도 있습니다. 훈련하는 ML 모델은 훈련하고 테스트하는 데 사용되는 실제 사실의 품질에 의해 제한되며 이는 Wikipedia 견적에 대한 설명의 일부입니다. 또한 ML에 대해 게시 된 기사에 데이터 수집 방법에 대한 자세한 설명이 포함되어야합니다.


훈련 중에, 특징으로부터 얻은 정보 (예를 들어, 스코어 맵으로부터)가 주어지면 (예를 들어, 분할 문제) 수정되거나 생성 될 수 있는가?
Alex

@Alex : 보통은 아닙니다. 하나의 수정 된 출력 또는 반자동 프로세스가 파이프 라인의 다음 알고리즘에 대한 기본 정보를 생성하는 상황이있을 수 있습니다. 그러나 규칙을 통해 자체 목표를 수정하는 알고리즘을 언급하는 경우 일반적으로 새로운 기본 진리로 간주되지 않습니다. 대신 기본 진리는 훈련을 위해 제공된 원래의 세그먼트입니다. 모든 영리한 자동화 개선은 모델의 일부가 될 것입니다.
Neil Slater

사람과의 상호 작용을 통한 개선 또는 원래의 비 이미지 데이터 (예 : 일부 소스 이미지는 3D 모델을 사용하여 생성되므로 훨씬 더 "참된"세그먼테이션을 생성 할 수 있음)는 새로운 토대가 될 수 있습니다. 두 번째 모델이 동일한 아키텍처 인 경우에도 첫 번째 모델을 빌드하는 데 사용 된 1 세대 그라운드 진실과 반복을 통해 생성 된 2 세대 그라운드 진실에 대한 아이디어를 분리하고 싶을 수도 있지만 피드백에 대한 교육
Neil Slater

'피드백에 대한 교육'-가깝지만 정확하지는 않습니다. FCN 모델을 본 경우 마지막 레이어는 gt 맵과 함께 log softmax loss 함수에 연결된 스코어 맵입니다. 내가하는 일은 점수 맵을 가져 와서 일부 데이터 (예 : argmax 이진 blob 수)를 추출하고 손실 마스크에 연결하기 전에 gt 마스크를 수정하는 것입니다. 이것이 얼마나 합법입니까?
Alex

@ 알렉스 : 그것은 당신의 모델의 일부이며 새로운 진실이 아닙니다. 임의로, 새 모델의 목표는 결합 된 기능을 배우는 것이라고 결정하지 않는 한. 어떤 경우에는 새로운 모델의 기초가됩니다. 그러나이 데이터의 원본은 자동화 된 방식으로 원래 측정에서 수정되었으므로이 데이터의 복잡한 소스를 가장 잘 알고 있어야합니다.
Neil Slater

2

사실 : 모델이 예측하기를 원하는 현실입니다.

약간의 노이즈가있을 수 있지만 모델 이이 사실을 일으키는 데이터의 기본 패턴을 배우기를 원합니다. 실제로, 실제 사실은 약간의 노이즈가 있고 모델이 100 % 정확도를 제공하지 않지만 모델이 가능한 한 가깝기를 원하기 때문에 모델은 실제 사실을 예측할 수 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.