서포트 벡터 머신 및 하이퍼 플레인에 대한 직감

15

내 프로젝트에서 이진 분류 (1 또는 0)를 예측하기위한 로지스틱 회귀 모델을 만들고 싶습니다.

나는 15 개의 변수를 가지고 있는데 그중 2 개는 범주 형이며 나머지는 연속 형과 이산 형 변수가 혼합되어 있습니다.

로지스틱 회귀 모델에 맞추기 위해 SVM, 퍼셉트론 또는 선형 프로그래밍을 사용하여 선형 분리 성을 확인하는 것이 좋습니다. 제안 된 내용과 관련이 있습니다. 선형 분리 성 테스트에 관한 과 관련 있습니다 .

기계 학습의 초보자로서 위에서 언급 한 알고리즘에 대한 기본 개념을 이해하지만 개념적으로 우리는 내 차원에서 너무 많은 차원을 가진 데이터를 분리하는 방법을 시각화하는 데 어려움을 겪습니다.

온라인 자료의 모든 예는 일반적으로 범주 사이의 명확한 간격을 보여주고 이해하기 쉽지만 실제 데이터의 치수는 일반적으로 훨씬 더 높은 2 개의 수치 변수 (높이, 무게)의 2D 플롯을 보여줍니다. 나는 아이리스 데이터 세트로 계속 돌아가서 세 종을 통해 초평면을 맞추려고 노력하고 있으며 두 종 사이에서 그렇게 할 수없는 경우 특히 어려운 이유는 무엇입니까?

우리가 더 높은 차원의 순서를 가질 때 어떻게 이것을 달성합니까? 특정 수의 기능을 초과 할 때이 분리 성을 달성하기 위해 커널을 사용하여 더 높은 차원의 공간에 매핑한다고 가정합니까?

또한 선형 분리 성을 테스트하기 위해 사용되는 메트릭은 무엇입니까? SVM 모델의 정확성, 즉 혼동 매트릭스에 기반한 정확도입니까?

이 주제를 더 잘 이해하는 데 도움이 될 것입니다. 또한 아래는 내 데이터 세트에있는 두 변수의 플롯 샘플입니다.이 두 변수 만 겹치는 방법을 보여줍니다.

— 염소
소스

1

게시물에 몇 가지 뚜렷한 질문이있는 것 같습니다. 그것들을 모두 목록으로 만들거나 필수적이지 않은 질문을 제거하십시오. 이것은 더 많은 사람들이 대답하고 더 나은 답변을

— 얻습니다

2

일반적으로 직감은 2D에서 고차원 적 상황으로 갈 때 상상력에서 많은 도움이 필요하며, 직감은 완전히 무너집니다. 사물이 다르게 작동하는 완전히 다른 세상에 속하는 것처럼 보이는 저 차원 문제의 고차원 버전이 많이 있습니다. Fermat의 정리를

— Aksakal

14

치수를 추가하면 선형 분류 기가 두 클래스를 더 잘 분리하는 데 도움이되는 이유를 이해할 수 있도록 노력하겠습니다.

두 개의 연속 예측 변수 과 및 이 있고 이진 분류를 수행 한다고 가정합니다 . 이것은 우리의 데이터가 다음과 같다는 것을 의미합니다 : $X_1$ $X_2$ $n=3$

이제 어떤 포인트를 클래스 1에 할당하고 어떤 포인트를 클래스 2에 할당한다고 상상해보십시오. 클래스를 포인트에 할당하는 방법에 관계없이 항상 두 클래스를 완벽하게 분리하는 선을 그릴 수 있습니다.

그러나 이제 새로운 요점을 추가한다고 가정 해 봅시다.

$p=2$

$X_3$

$p=3$ $n=4$

$p$ $p+1$

$n$ $p$

$\mathscr F$ $n$ $\mathscr F$ $n$ $\mathscr F$ $\mathscr F$ $p$ $\mathscr F$ $n=p+1$ $\mathscr F$ $p$ 변수는 여러 포인트를 산산조각 낼 수 있습니다. 가능한 분류기 세트의 복잡성에 대해 알려주는이 산산조각 개념은 통계 학습 이론에서 비롯되었으며 분류기 세트가 할 수있는 과적 합 정도에 대한 진술을하는 데 사용될 수 있습니다. 관심이 있으시면 Luxburg와 Schölkopf "통계학 학습 이론 : 모델, 개념 및 결과" (2008)를 적극 권장 합니다.

— jld
소스

자세한 답변을 보내 주셔서 감사합니다. 다차원 기능의 아이디어와 직관적으로 분리하는 방법을 이해하는 데 도움이되었습니다.

— TheGoat

7

저 차원 공간에 대한 직관을 가지고 고차원 공간에 적용하면 실수하기 쉽습니다. 이 경우 직감이 거꾸로됩니다. 낮은 공간보다 높은 차원 공간에서 분리 초평면을 찾는 것이 훨씬 쉽다는 것이 밝혀졌습니다.

두 쌍의 변수를 볼 때 빨강 및 파랑 분포가 겹치지 만 한 번에 15 개의 변수를 모두 볼 때 전혀 겹치지 않을 가능성이 큽니다.

— 아론
소스

2

15 개의 변수가 있지만 종속 변수를 구별하는 데 모두 중요하지는 않습니다 (일부 변수는 거의 관련이 없을 수도 있음).

PCA (Principal Component Analysis) 는 15 개의 변수를 선형으로 재 계산하여 처음 몇 개의 구성 요소가 일반적으로 대부분의 분산을 설명하는 방식으로 순서를 정합니다. 따라서 15 차원 문제를 2,3,4 또는 5 차원 문제로 줄일 수 있습니다. 따라서 플로팅을보다 직관적으로 만듭니다. 일반적으로 숫자 (또는 높은 카디널리티 서수) 변수에 2 개 또는 3 개의 축을 사용한 다음 3 개의 추가 차원에 마커 색, 모양 및 크기를 사용할 수 있습니다 (카디널리티 서 수가 낮은 조합을 사용하는 경우 더 많을 수 있음). 따라서 가장 중요한 6 개의 PC로 플로팅하면 의사 결정 영역을보다 명확하게 시각화 할 수 있습니다.

— smci
소스