데이터가 선형으로 분리 가능한지 어떻게 알 수 있습니까?


21

데이터에는 많은 기능 (예 : 100)이 있으며 인스턴스 수는 100,000입니다. 데이터가 드물다. 로지스틱 회귀 또는 svm을 사용하여 데이터를 맞추고 싶습니다. 비선형 인 경우 커널 트릭을 사용할 수 있도록 기능이 선형인지 비선형인지 어떻게 알 수 있습니까?

답변:


22

데이터를 선형으로 분리 할 수 ​​있는지 여부를 확인하는 방법에는 여러 가지가 있으며이 중 일부는이 백서에서 강조 표시되어 있습니다 (1). 데이터 세트에 두 개의 클래스가 있다고 가정하면 다음은 선형으로 분리 가능한지 여부를 찾는 몇 가지 방법입니다.

  1. 선형 프로그래밍 : 선형 분리 성을 충족하는 제약 조건이 적용되는 목적 함수를 정의합니다. 구현에 대한 자세한 내용은 여기를 참조하십시오 .
  2. 퍼셉트론 방법 : 퍼셉트론 은 데이터가 선형으로 분리 가능한 경우 수렴되도록 보장됩니다.
  3. 2 차 프로그래밍 : 2 차 프로그래밍 최적화 목적 함수는 SVM에서와 같이 제약 조건으로 정의 할 수 있습니다.
  4. 계산 기하학 : 두 개의 분리 된 볼록 껍질 을 찾을 수 있으면 데이터를 선형으로 분리 할 수 ​​있습니다
  5. 클러스터링 방법 : k- 평균과 같은 일부 클러스터링 방법을 사용하여 클러스터 순도가 100 % 인 두 개의 클러스터를 찾을 수 있으면 데이터를 선형으로 분리 할 수 ​​있습니다.

    (1) : Elizondo, D., "선형 분리 성 문제 : 일부 테스트 방법", Neural Networks, IEEE Transactions on vol.17, no.2, pp.330-344, 2006 년 3 월 doi : 10.1109 / TNN. 2005.860871


1
참조 (링크가 썩을 수 있음) 및 적용되는 방법에 대한 최소한의 설명을 제공하십시오.
Scortchi-Monica Monica 복원

2
감사. 좋은 답변입니다 (+1). R 패키지 safeBinaryRegression는 또한 선형 프로그래밍 접근법을 구현합니다.
Scortchi-Monica Monica 복원

(LP 접근 방식)은 기하학적, 계산 효율성 및 일반적으로 이용 가능합니다 (LP 루틴과 같이).
user603

3

2 클래스 분류 문제에 대해 이야기한다고 가정합니다. 이 경우 두 클래스를 구분하는 줄이 있으며 모든 클래식 알고리즘은 수렴 할 때 찾을 수 있어야합니다.

실제로는 동일한 데이터를 교육하고 테스트해야합니다. 그러한 선이 있다면 100 % 정확도 또는 100 % AUC에 가까워 야합니다. 그러한 라인이 없으면 동일한 데이터에 대한 교육 및 테스트로 인해 적어도 일부 오류가 발생합니다. 오류의 양에 따라 비선형 분류기를 사용해 볼 수도 있고 그렇지 않을 수도 있습니다.


1

미디엄나는, ||||2
에스. 나는,('엑스나는+)와이나는1

미디엄나는에스, 에스
에스. 나는,('엑스나는+)와이나는1에스
에스0

에스에스나는


+1 이것은 R 패키지로 구현 된 메소드의 기하학적 직관입니다safeBinaryRegression
user603

-2

로지스틱 회귀 분석을 시도하고 작동 방식을 확인하십시오. 그래도 해결되지 않으면 시도 할 수있는 커널이 무한히 많아 여전히 해결되지 않을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.