지원 벡터 분류를 위해 libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) 도구를 사용하고 있습니다. 그러나 입력 데이터의 형식이 혼란 스럽습니다.
읽어보기에서 :
교육 및 테스트 데이터 파일의 형식은 다음과 같습니다.
<label> <index1>:<value1> <index2>:<value2> ... . . .
각 줄은 인스턴스를 포함하며 '\ n'문자로 끝납니다. 분류의
<label>
경우 클래스 레이블을 나타내는 정수입니다 (다중 클래스 지원). 회귀의<label>
경우 목표 값은 실수 일 수 있습니다. 1 클래스 SVM의 경우 사용되지 않으므로 숫자가 될 수 있습니다. 쌍<index>:<value>
은 특징 (속성) 값을 제공합니다.<index>
1부터 시작하는 정수<value>
이며 실수입니다. 미리 계산 된 커널은 예외입니다. 여기서<index>
0부터 시작합니다. 미리 계산 된 커널 섹션을 참조하십시오. 인덱스는 오름차순이어야합니다. 테스트 파일의 레이블은 정확도 또는 오류를 계산하는 데만 사용됩니다. 이들이 알려지지 않은 경우 첫 번째 열에 숫자를 채우십시오.
다음과 같은 질문이 있습니다.
- 의 사용은 무엇입니까
<index>
? 어떤 목적으로 사용됩니까? - 다른 데이터 인스턴스의 동일한 인덱스 값간에 대응 관계가 있습니까?
- 사이에 색인을 놓치거나 건너 뛰면 어떻게됩니까?
12 행에서 libsvm 패키지에 포함 된 * heart_scale * 데이터 파일이 인덱스 2에서 시작하기 때문에 묻습니다 <value>
. 참고 : 패키지와 함께 제공된 tools / checkdata.py 도구는 * heart_scale * 파일이 올바르다 고 말합니다.