답변:
나는 전에이 용어를 본 적이 없다. 머신 러닝 (감독 및 비 감독 구별이 문제 해결의 중심)과 추론 적 통계 (회귀, 확인 분석 및 NHST가 가장 많이 사용되는)에서 어느 영역에서든 빛이나 어둠이 퍼질 지 확신 할 수 없습니다.
이 두 철학이 겹치는 경우 대부분의 회귀 및 관련 용어는 엄격하게 감독되는 환경에서 사용됩니다. 그러나 비지도 학습의 많은 기존 개념은 회귀 기반 접근 방식과 밀접한 관련이 있다고 생각합니다. 특히 각 클래스 또는 기능을 순차로 결과로 반복하고 결과를 모을 때 더욱 그렇습니다. 이에 대한 예는 PCA 및 이변 량 상관 분석입니다. 여러 변수에 대해 최상의 서브 세트 회귀 분석을 반복적으로 적용하면 구조 방정식 모델링 (EFA 의미에서)에서 가정하는 것처럼 매우 복잡한 네트워크 추정을 수행 할 수 있습니다. 이것은 나에게 회귀에 대한 감독되지 않은 학습 문제처럼 보입니다.
그러나 회귀 모수 추정치는 반사적이지 않습니다. 단순 선형 회귀를 들어, 회귀 따라 것보다, 당신에게 다른 결과, 다른 추론하고 (심지어 역 반드시) 다른 견적을 줄 것이다 에 . 내 생각에, 이러한 commutativity의 부족은 대부분의 순진 회귀 응용 프로그램 을 감독되지 않은 학습 문제에 부적격 하게 만듭니다 .
내가 생각할 수있는 가장 가까운 것은 몇 년 전에 발표되었을 때 사람들을 놀라게 한 작은 흑 마법이지만, 그것이 그것이 지역 사회에서 진정한 매력을 얻지 못했다고 생각합니다. 저자들은 "최대 정보 계수 (Maximal Information Coefficient : MIC)"라고하는 통계를 개발했습니다. 이 방법의 일반적인 아이디어는 높은 차원의 데이터를 가져 와서 모든 변수에 대해 각 변수를 쌍으로 플로팅 한 다음 흥미로운 두 가지 변수에 대한 창 바인딩 알고리즘을 적용하여 두 플롯에 대한 MIC를 계산하는 것입니다. 잠재적으로 두 변수 사이의 관계. 이 기술은 선형이 아니라 임의로 구조화 된 관계 를 식별하는 데있어 강력해야합니다 .
이 기술은 변수 쌍을 대상으로하지만 다변량 관계를 조사하기 위해 확장 될 수 있다고 확신합니다. 주요 문제는 점점 더 많은 변수의 순열을 허용하기 때문에 훨씬 더 많은 변수 조합에서 기술을 실행해야한다는 것입니다. 나는 아마도 쌍으로 단지 시간이 걸릴 것이라고 생각합니다. 원격 적으로 높은 차원의 데이터에서도 이것을 사용하려고 시도하고 변수 쌍보다 복잡한 관계를 고려하면 다루기가 어려워집니다.
대규모 데이터 집합에서 소설 연관 검색 (2011) 백서 참조
감독 된 방법과 감독되지 않은 방법의 차이점을 연구하는 동안이 질문이 떠 올랐습니다. 계량 경제적 배경에서 비롯된 모델에 대해 생각하는 것을 선호하는데, 이는 내가 경험 한 대부분의 기계 학습 문헌이 분석법에 초점을 맞추기 때문에 이해력을 떨어 뜨 렸습니다.
지금까지 내가 찾은 것은 clustering
(감독되지 않은) 대 classification
(감독 된) 사이를 엄격하게 구분해야한다는 것 입니다. 이러한 모델 설계 간의 관계에 대한 지속적인 비유는 principal component analysis
(비지도) 대 linear regression
(비지도)입니다.
그러나 클러스터링과 분류 간의 관계는 전적으로 우연이라고 주장합니다. 우리가 두 모델 디자인을 기하학적 관계를 묘사하는 것으로 해석 할 때만 존재하며, 이는 필연적으로 제한적입니다. 내가 아는 모든 감독되지 않은 방법 (k- 수단, kohonen / neural gas, DBSCAN, PCA와 같은 탄성 맵 알고리즘)도 잠재 변수 모델로 해석 할 수 있습니다. 군집화 방법의 경우, 이것은 클러스터에 속하는 것을 상태에있는 것으로 보는 것과 같으며, 이는 상태 인형을 도입함으로써 잠재적 변수 모델로 코딩 될 수 있습니다.
잠재 변수 모델로 해석하면 연속 잠재 변수 측면에서 특징을 설명하는 비선형 모델을 자유롭게 지정할 수 있습니다.