스파 스 훈련 세트가 SVM에 부정적인 영향을 줍니까?


12

SVM을 사용하여 메시지를 다른 범주로 분류하려고합니다. 훈련 세트에서 원하는 단어 / 기호 목록을 작성했습니다.

메시지를 나타내는 각 벡터에 1대해 단어가 존재하면 해당 행을 설정합니다 .

"corpus"는 다음과 같습니다. [mary, little, lamb, star, twinkle]

첫 번째 메시지 : "메리에게 작은 양이있었습니다"-> [1 1 0 0]

두 번째 메시지 : "twinkle little star"-> [011011]

나는 이것이 SVM에서 매우 일반적인 설정이라고 생각하지만 내 질문은 수천 단어가 세트에 실제로 메시지 당 1-2 단어 만 있으면 어떻게 될까요? 훈련 벡터 세트의 선형 의존성이 알고리즘의 수렴 능력에 악영향을 미칩니 까?


1
데이터가 많지만 레이블이 지정된 데이터가 있습니까? 그렇다면 반 감독 학습을보고 싶을 수도 있습니다. 레이블이없는 데이터를 사용하면 정확도가 높아지고 과적 합의 위험이 줄어 듭니다.
neuron

@neuron 나는 그렇게 생각했습니다. 반 감독 아키텍처의 예는 무엇입니까?
jonsca

1
나는 단지 반 감독의 "해키"방법만을 사용했다 (훈련 집단의 기차 모델, 데이터를 예측하기 위해 모델을 사용하고, 예측 확률이> 0.5 인 모든 데이터를 가져오고 훈련 집합과 병합하고 새로운 훈련 집합에 모엘을 생성 함). 그러나 내가 본 flexmix이 언급 한 몇 군데 (참조 cran.r-project.org/web/packages/flexmix )
신경

@neuron 좋아, 내가 본 기사 (빠른 위키 백과 같은 검색에도 불구하고)는 아키텍처에 대해 구체적이지 않기 때문에 좋다. 나는 체크 아웃 할 것이다. flexmix그러나 나는 2 년 동안 나의 달력에 "Learn R"을 가지고있다!
jonsca

R이 놀랍습니다. 사용 가능한 라이브러리는 마음에 들지 않습니다. 캐럿, sqldf / rmysql, foreach (병렬), ggplot2 및 googlevis와 같은 도구는 놀랍도록 유용한 도구입니다. 나는 처음에는 언어의 팬이 아니었지만 나에게 자랐고 지금은 그것을 사용하는 것을 절대적으로 좋아합니다.
neuron

답변:


9

희소성과 선형 의존성은 서로 다른 두 가지입니다. 선형 의존성은 특징 벡터 중 일부는 다른 특징 벡터의 단순한 배수 (또는 예에 동일하게 적용됨)를 의미합니다. 설정에서 선형 의존성이 거의 없을 것이라고 생각했습니다 (모든 문서에서 두 용어가 동일한 빈도 (또는 그 배수)를 의미 함). 스파 스 기능 만 있으면 SVM에 아무런 문제가 없습니다. 이것을 보는 한 가지 방법은 좌표 축을 무작위로 회전하여 문제를 변경하지 않고 동일한 솔루션을 제공하지만 데이터를 완전히 희소하게 만들 수 있다는 것입니다 (이는 부분적으로 임의 투영이 작동하는 방식입니다) ).

또한 당신은 초기에 SVM에 대해 이야기하고있는 것 같습니다 . 커널 SVM을 사용하는 경우 희소 데이터 세트가 있다고해서 커널 매트릭스가 희소하다는 의미는 아닙니다. 그러나 순위가 낮을 수 있습니다. 이 경우 실제로보다 효율적인 훈련을 위해이 사실을 활용할 수 있습니다 (예 : 낮은 순위 커널 표현을 사용한 효율적인 svm 훈련 참조 ).


1
사실, 나는 내 용어에 약간 빠르다. 말이된다.
jonsca
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.