연속 및 이진 데이터를 선형 SVM과 혼합합니까?


15

그래서 나는 SVM을 가지고 놀고 있었고 이것이 좋은 일인지 궁금합니다.

연속 기능 (0 ~ 1) 세트와 더미 변수로 변환 된 범주 기능 세트가 있습니다. 이 특별한 경우에는 측정 날짜를 더미 변수로 인코딩합니다.

데이터를 보유한 기간은 3 가지이며 3 개의 기능 번호를 예약했습니다.

20:21:22 :

따라서 데이터가 나오는 기간에 따라 다른 기능에 1이 할당됩니다. 나머지는 0이됩니다.

SVM이 이것과 제대로 작동합니까, 아니면 나쁜 일입니까?

SVMLight와 선형 커널을 사용합니다.


이것은 잘 작동합니다.
Marc Claesen

당신이 한 일은 충분합니다. 여기에 약간의 자세한 답변이 있습니다 -quora.com/Machine-Learning/…
TenaliRaman

@TenaliRaman은 실제로 무엇이든 읽을 수 있기 전에 로그인해야하는 사이트에 대한 링크를 게시하지 마십시오.
Marc Claesen

@ MarcClaesen 아래 답변을 복제했습니다.
TenaliRaman

답변:


8

SVM은 사전 처리를 수행하는 한 이진 변수와 연속 변수를 모두 처리합니다. 모든 기능을 조정하거나 정규화해야합니다. 이 단계 후에 알고리즘의 관점에서 볼 때 피처가 연속적인지 바이너리인지는 중요하지 않습니다. 연속적인 경우 값 사이에도 값이 있습니다. 변수 유형과 관련하여 커널은 중요하지 않습니다.


1
최고의 정규화 기술은 무엇입니까?
Shlomi Schwartz

23

http://www.quora.com/Machine-Learning/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together/answer/Arun-Iyer-1 에서 내 답변 복제

  • 재조정 연속 경계 기능 : 모든 연속 입력되는 경계로 재조정 내지 X = 2 X - 최대 - 최소[1,1] .x=2xmaxminmaxmin
  • μσx=xμσ .
  • 범주 형 / 이산 형 피쳐 이진화 : 모든 범주 형 피쳐에 대해 여러 부울 형 피쳐로 표시합니다. 예를 들어, married_status라는 하나의 기능을 갖는 대신 3 개의 부울 기능 (married_status_single, married_status_married, married_status_divorced)을 갖고 이러한 기능을 1 또는 -1로 적절하게 설정하십시오. 보시다시피, 모든 범주 형 피처에 대해 k 이진 피처를 추가합니다. 여기서 k는 범주 형 피처가 취하는 값의 수입니다.

이제 모든 기능을 하나의 벡터로 표현할 수 있습니다.이 벡터를 포함한다고 가정 할 수 있습니다Rn 및 상용 패키지 분류 / 회귀 등을 사용하여 시작

Rn


글쎄요, 이 기사 는 범주 형 기능에 대해 매우 흥미 롭습니다. 원샷 인코딩이 범주 형 기능에 가장 적합한 선택이라고 말하지는 않습니다.
표시 이름

1
이것은 훌륭한 답변입니다. @displayname 주석의 링크를 읽었으며 유용한 비교입니다. 이 기사에서 이진 인코딩이 가장 좋으며 (이 답변에서 가장 잘 설명되지 않은 것으로 보임) 아주 간단합니다. 코드에서 이진 문자열의 숫자는 별도의 열로 분할됩니다. 이렇게하면 데이터의 열화가 적지 만 거리가 약간 왜곡되어 데이터가 인코딩됩니다. "
shelbypereira

@displayname으로 제공된 기사는 좋은 기사이지만 액면가로 가져 와서는 안됩니다. 가장 먼저 기억해야 할 것은 거의 모든 ML 방법이 유사성 또는 거리 측정으로 작동한다는 것입니다. 인코딩 방법의 선택은 두 점 사이의 거리 또는 유사성이 측정되는 방식에 직접적인 영향을줍니다. 1 핫 인코딩은 한 범주의 객체가 그 자체와 유사하거나 동등하게 모든 범주를 서로 같은 거리에 둔다는 것을 나타냅니다. 그러나 특정 범주가 다른 범주보다 더 가까운 경우가 있습니다. 이 경우 다른 인코딩이 도움이 될 수 있습니다.
TenaliRaman
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.