고지방 데이터로 분류


15

수십만 개의 데이터 포인트와 약 10 만 개의 기능을 갖춘 랩톱에서 선형 분류기를 훈련시켜야합니다. 내 옵션은 무엇입니까? 이 유형의 문제에 대한 최신 기술은 무엇입니까?

확률 적 그라디언트 하강이 유망한 방향 인 것 같습니다. 제 감각은 이것이 최첨단이라는 것입니다.

"Pegasos : SVM을위한 초기 추정 서브 그 레이디 언트 솔버"Shai Shalev-Shwartz, Yoram Singer, Nathan Srebro, Andrew Cotter. "수학적 프로그래밍, 시리즈 B, 127 (1) : 3-30, 년도 : 2007."

이것이 합의입니까? 다른 방향으로 봐야합니까?


1
치수 축소 방법을 사용하는 것을 고려 했습니까? 치수 축소를 요구하는 수많은 기능 : en.wikipedia.org/wiki/Dimension_reduction
Dov

이 질문은 연구 노력으로 개선 될 수 있습니다. 마음에 드는 기술이 있습니까?
Tamzin Blake

@ 톰 블레이크 : 내 생각으로 질문을 조금 편집했습니다.
carlosdc 2019

데이터에 대해 더 많이 알지 못하면 어떤 대답도 알 수 없습니다. 드문가요? 마디 없는? 이산? 중복 기능 / 개체? 수업은 몇 개입니까? 예를 들어, 희소 데이터의 PCA는 때때로 유해 할 수 있습니다.
cyborg

2
키가 큰 = 많은 pts? 지방 = 많은 기능? 이 표준 용어는 어디에 있습니까? 어딘가의 심판에 사용됩니까?

답변:


6

온라인 학습 방법을 살펴 봐야한다고 생각합니다 . 퍼셉트론 커널 퍼셉트론 코드와 작업을 매우 잘 연습에 매우 쉽게, 그리고 다른 온라인 방법의 전체 호스트가있다. 모든 온라인 학습 방법은 배치 학습 알고리즘으로 변환 될 수 있으며이 경우 확률 적 경사 하강 방법과 매우 유사합니다.

당신이 matlab에를 사용하는 경우가라는 정말 좋은 도구 상자의 교리 온라인 학습 알고리즘의 범위를 포함 프란체스코 Orabona에 의해, 당신은 그것을 사용하는 몇 가지 방법을 평가할 수 있습니다. 나는 이것을 내 연구 중 일부에서 사용했으며 매우 유용하다는 것을 알았습니다 (내가 기억하는 한 데이터를 [특징 x 예제]로 기대하므로 그것을 바꾸어야 할 수도 있습니다).

2ϵ2


7

먼저 선형 분류 기가 최선의 선택인지 어떻게 알 수 있습니까? 이러한 넓은 공간 (R ^ 10000)의 경우 직관적으로 다른 비선형 분류 기가 더 나은 선택 일 수 있습니다.

여러 분류기를 시도하고 예측 오류를 관찰하는 것이 좋습니다 (정규화 된 분류 모델을 여러 개 시도해보십시오).

메모리가 부족한 경우 PCA를 사용하여 차원을 줄이십시오.


2
감사. 문제의 규모를 처리하는 방법에 대해 더 많이 생각하고있었습니다. 더 간단하기 때문에 선형으로 시작하고 싶었습니다. 커널 기반 방법을 제안한다고 생각합니다. 750000 개의 데이터 포인트가있는 경우 커널 매트릭스의 크기가 540GB라는 점을 지적하겠습니다. 따라서 대답은 불가능합니다 : LIBSVM / SVMLight / etc에 연결하면 좋은 C와 감마를 얻을 수 있습니다.
carlosdc

2
(-1) 대답은 a) 부분적으로 너무 일반적이므로 모든 분류 질문에 적용될 수 있습니다. b) PCA가 왜 다른 차원 축소 기술보다 권장되는지 설명하지 않습니다.
steffen

3

PCA와 동일한 신경 뉴톡을 사용하여 공분산 행렬을 계산하지 않고 PCA를 사용하여 치수를 줄일 수도 있습니다.

여기에 그것을 설명하는 논문이 있습니다 (그러나 나는 당신 자신의 검색을 권장합니다) : http://users.ics.tkk.fi/oja/Oja1982.pdf 그리고 여기 matlab 구현에서 작동하는 것으로 연결되는 링크가 있습니다 : http : //www.cs.purdue.edu/homes/dgleich/projects/pca_neural_nets_website/index.html .


1

jb가 제안했듯이 "차원 축소"방법을 사용하는 것이 좋습니다. PCA (Principle Component Analysis)가 널리 사용됩니다. 또한 감독되지 않은 기능 학습 기술도 시도 할 수 있습니다. 비지도 기능 학습에 대한 자세한 내용은 http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial 에서 확인할 수 있습니다.


1
PCA not PAC;) ( 15 자 )
뉴런
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.