잠재 기능의 의미?


24

추천 시스템의 행렬 분해에 대해 배우고 있는데 용어가 latent features너무 자주 발생하지만 그 의미를 이해할 수 없습니다. 기능이 무엇인지 알고 있지만 잠재적 기능에 대한 아이디어를 이해하지 못합니다. 설명해 주시겠습니까? 아니면 적어도 내가 읽을 수있는 종이 / 장소를 가리켜 주시겠습니까?


잠복 변수를 사용하면 모델링 할 수있는 측면에서 모델을 더 강력하게 렌더링 할 수 있습니다. 가치를 정의하는 것은 데이터와 알고리즘에 달려 있습니다. 즉, 잠재 변수는 관찰 된 변수와 원하는 예측 사이의 간격을 메우는 "단계"와 같습니다. 이 "갭"이 넓을수록 잠재적 변수가 더 유용합니다.
Vladislavs Dovgalecs

답변:


25

지나치게 단순화 된 비용으로 잠재 기능은 '숨겨진'기능으로 관찰 된 기능과 구별됩니다. 잠재 특징은 행렬 인수 분해를 사용하여 관찰 된 특징으로부터 계산됩니다. 예를 들어 텍스트 문서 분석이 있습니다. 문서에서 추출 된 '단어'는 기능입니다. 단어 데이터를 인수 분해하면 '주제'를 찾을 수 있습니다. 여기서 '주제'는 의미 적 관련성이있는 단어 그룹입니다. 낮은 순위의 행렬 인수 분해는 여러 행 (관찰 된 기능)을 더 작은 행 집합 (잠재적 기능)에 매핑합니다. 자세히 설명하기 위해이 문서는 '선박', '보트'와 같은 잠재 기능 (주제)에 '요인 화'하는 [범선, 스쿠너, 요트, 기선, 순양함]과 같은 지형지 물 (단어)을 관찰 할 수있었습니다.

[범선, 스쿠너, 요트, 기선, 순양함, ...]-> [선박, 보트]

근본적인 아이디어는 잠재 된 특징이 관찰 된 특징의 의미 상 '집합'이라는 것입니다. 대규모, 고차원 및 노이즈가있는 관찰 기능이있는 경우 잠재 기능에 대한 분류기를 작성하는 것이 좋습니다.

이것은 물론 개념을 설명하기위한 간단한 설명입니다. 정확한 설명을 위해 LDT (Latent Dirichlet Allocation) 또는 pLSA (probabilistic Latent Semantic Analysis) 모델에 대한 세부 사항을 읽을 수 있습니다.


"잠재적 특징은 행렬 분해를 사용하여 관찰 된 특징으로부터 계산됩니다." 행렬 인수 분해를 사용한 계산이 잠재 수량으로 간주되는 데 필요한 조건입니까?
flow2k

5

(MxN)MN엑스나는j

그런 다음 K"잠재적 요인" 을 도입하여 행렬을 " 인자 화" 할 수 있으므로 하나의 행렬 대신 두 가지, 즉 (MxK)사용자의 경우와 (KxN)항목의 경우 행렬 곱셈이 원래 행렬을 생성합니다.

마지막으로, 귀하의 질문에 : 행렬 인수 분해의 잠재적 특징은 무엇입니까? K사용자 취향 및 권장 항목에서 알려지지 않은 기능 ( )이므로이 두 행렬을 곱하면 알려진 권장 사항의 행렬이 생성됩니다. 특정 가중치 (특정 항목에 대한 사용자 선호도 및 특정 항목의 기능 양)에 대한 특정 가중치는 소위 Alternating Least Squares algo를 통해 정의되며 여기 에서 더 자세히 볼 수 있습니다.


3

나에게 보인다 잠재 기능 에 대한 기준을 설명하는 데 사용되는 용어입니다 엔티티를 분류 하여 즉, 자신의 구조, 기능 (특성)가 대신 포함 클래스 가 속한이. 여기서 "잠재적"이라는 단어의 의미는 사회 과학에서 그 의미와 유사 할 가능성이 높습니다. 여기서 매우 인기있는 잠재 변수 ( http://en.wikipedia.org/wiki/Latent_variable )는 관찰 할 수없는 변수 (개념)를 의미합니다.

다음 백서의 "소개"섹션은 잠재적 특징의 의미 와 사회 과학 현상 모델링 에 사용 하는 방법을 잘 설명합니다 . http://papers.nips.cc/paper/3846-nonparametric-latent-feature-models-for- link-prediction.pdf .


나는 당신이 참조한 논문에서 소개를 읽었지만 잠복 기능의 개념을 이해하는 데별로 유용하지 않다는 것을 알았습니다.
Will

@ 윌 더 나은 설명과 함께 소스를 자유롭게 제안하십시오.
Aleksandr Blekh


감사합니다. 나는 동의합니다-그것은 꽤 좋은 소개 / 설명입니다 (그러나 많은 다른 좋은 것들이 흩어져 있다고 확신합니다).
Aleksandr Blekh

1

다른 예로, 사용자가 Netflix 설정과 같은 영화 등급 매트릭스를 사용하는 경우를 고려하십시오. 이것은 처리하기 어려운 거대한 희소 행렬입니다.

각 사용자는 공상 과학 영화 나 로맨스 영화 등 특정 환경 설정을 갖습니다. 따라서 모든 영화 등급을 저장하는 대신 다른 장르에 속하는 영화 카테고리와 같은 단일 잠재 기능을 저장할 수 있습니다 . sci-fi 또는 로맨스, 각 카테고리에 대한 그의 취향을 정량화하는 것. 이를 Latent Features 라고 하며 전체 영화 목록을 저장하지 않고 그의 취향의 본질을 포착합니다.

물론 이것은 근사치이지만 반대쪽에는 저장할 것이 거의 없습니다.

1122

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.