SVM 분류에 어떤 분류 기가 더 정확한가요?


10

SVM 분류를 배우고 있는데 문제가 있습니다. 이 딜레마에 대한 용어가 있는지 확실하지 않습니다.

건강한 사람 (성별)과 간암 환자 (성별)를 고려하여 환자를 SVM으로 분류한다고 가정합니다. 건강한 사람 샘플을 클래스 1로, 암 환자를 클래스 2로 레이블링하면 이진 SVM을 훈련시키고 분류기 1을 얻어 새로운 환자를 예측할 수 있습니다. 이제 다른 시나리오를 상상해보십시오. 먼저 SVM 분류 전에 모든 샘플을 성별로 나눕니다. 각 성별에 대해, 건강한 환자 대 암 환자를 2 개의 클래스로 분류하고 이진 SVM을 훈련시켜 각각 여성 및 남성 샘플에 대한 분류기 2 및 분류기 3을 얻습니다. 문제는 더 정확한 예측을 위해 어떤 분류기 (1 또는 2)를 사용해야하는 새로운 여성 환자가 있는지 여부입니다. 여기 내가 가진 논쟁의 딜레마가 있습니다.

(1) 샘플 수가 많으면 예측이 더 정확해야합니다. 이 주장에 근거하여 분류 자 ​​1이 좋은 선택 인 것 같습니다.

(2) 그러나 우리가 먼저 샘플을 여성 및 남성 그룹으로 나누면 분류기 2는 새로운 환자 (알 수없는 테스트 샘플)가 여성이기 때문에 더 나은 선택으로 보입니다.

이런 종류의 딜레마에 용어가 있습니까, 아니면 더 이상의 정보 나 이와 같은 문제를 해결하는 방법을 아는 사람이 있습니까? 나는 이것이 합법적 인 질문인지 확실하지 않고 순진한 질문에 미리 미안합니다. 감사


4
이것은 일반적으로 대답 할 수 없습니다. 아마도 우리가 성별에 따라 암에 영향을 미치는 정도와 샘플 수, 사용하는 손실 기능 등을 알고 있다면 교차 검증을 사용하여 실험하는 것이 훨씬 쉽습니다.
adrianN

감사. 말된다. 나는 일반적인 규칙이 없어야한다고 생각합니다.
Cassie

1
이것은 "이 문제를 해결하기 위해 ML을 어떻게 사용해야하는지"에 대한 일반적인 ML 질문처럼 들립니다. 표준 답변이 없습니다. 다양한 접근법을 시도하고 어떤 전략이 가장 정확한 예측 결과를 이끌어 내는지 확인하는 중요 / 허용 / 표준. 일반적인 제목은 "추상 ML 프레임 워크에서 실제 문제 표현"또는 대략 "모델링"과 같은 것이며 좋은 표준 참조로 다루고
vzn

답변:


3

이 프로세스를 자동화하는 기능 선택알고리즘 을 살펴보십시오 . ML을 처음 사용하고 전체 기능 선택 프로세스를 이해하지 못하는 경우 적절한 직관을 얻으면 라이브러리를 사용하여 프로세스를 자동화 할 수 있습니다.

학습 알고리즘을 사용하는 핵심 아이디어는 패턴을 찾을 수 있도록하는 것입니다 . 가장 많이 할 수있는 것은 많은 (중복되지 않은) 데이터를 제공하고 일반적으로 물건과 관련된 좋은 전처리 단계를 통해 그를 도와주는 것입니다. 기능 선택, 같은 정상화 .

친숙하게도 학습 알고리즘을 구현할 때 수정을 필요로한다는 사실을 입증하는 구체적인 지표가없는 경우가 아니라면 ' 학습 '을 통해서만 데이터 세트를 수정하려고 시도 해서는 안됩니다. 알고리즘은 분류 프로세스와 원격으로 '관련된'것으로 보이지 않는 기능에 대해 높은 편견을 두었습니다. 데이터를 수정하기 전에 항상 기능 선택 단계를 수행하십시오.


1

머신 러닝 프로세스의이 단계 단계에 대한 일반적인 제목 중 하나는 wikipedia에 "클리닝, 정규화, 변환, 기능 추출 및 선택 등"을 포함하는 데이터 사전 처리 입니다.

기계 학습의 또 다른 측면은 "모델 생성"입니다. 여기에는 결정되는 클래스 수, ML 구조의 "크기"또는 "치수"에 대한 결정 (예 : "SVM에 포함 할 커널 수"등), NN의 뉴런 수 선택과 거의 유사한 결정이 포함됩니다. 모델). 불행히도 일부 심판은이 단계를 건너 뛰거나 "광택"하는 경향이 있습니다. 그러나 통계와 공통점이 있으며 일부 통계 서적에는 좋은 설명이 있습니다.

ML 유형 접근법에서는 효과적인 전처리 및 모델링을 결정하기위한 강력한 반복 / 피드백 / 진화 프로세스가있는 것이 일반적입니다. 실험자는 다양한 전처리 및 모델링 아이디어를 시도하고 더 성공적인 아이디어의 방향으로 움직입니다. 일반적인 경험 법칙은 "예측이 더 좋을수록, 더 많은 예측이 정확하게 (그리고 아마도 현실적으로도 ) 전처리와 모델링 일뿐 "이지만, 과적 합 은 신중하게 배제 된다는 점을 감안할 때입니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.