SVM을 사용하여 메시지를 다른 범주로 분류하려고합니다. 훈련 세트에서 원하는 단어 / 기호 목록을 작성했습니다.
메시지를 나타내는 각 벡터에 1
대해 단어가 존재하면 해당 행을 설정합니다 .
"corpus"는 다음과 같습니다. [mary, little, lamb, star, twinkle]
첫 번째 메시지 : "메리에게 작은 양이있었습니다"-> [1 1 0 0]
두 번째 메시지 : "twinkle little star"-> [011011]
나는 이것이 SVM에서 매우 일반적인 설정이라고 생각하지만 내 질문은 수천 단어가 세트에 실제로 메시지 당 1-2 단어 만 있으면 어떻게 될까요? 훈련 벡터 세트의 선형 의존성이 알고리즘의 수렴 능력에 악영향을 미칩니 까?
flexmix
그러나 나는 2 년 동안 나의 달력에 "Learn R"을 가지고있다!