통계 및 빅 데이터 svm

2

불균형 테스트 데이터 세트가 있습니다. 양수 세트는 100 건으로 구성되고 음수 세트는 1500 건으로 구성됩니다. 훈련 측면에는 더 큰 후보 풀이 있습니다. 긍정적 훈련 세트는 1200 건이고 부정적인 훈련 세트는 12000 건입니다. 이런 종류의 시나리오에는 몇 가지 선택이 있습니다. 1) 전체 교육 세트에 가중치 SVM 사용 (P : 1200, N …

16 machine-learning classification data-mining svm bioinformatics

4

낮은 분류 정확도, 다음에 수행 할 작업

그래서 저는 ML 분야의 초보자이며 분류를하려고합니다. 내 목표는 스포츠 이벤트의 결과를 예측하는 것입니다. 나는 몇 가지 역사적 데이터를 수집했으며 이제 분류기를 훈련하려고합니다. 나는 약 1200 개의 샘플을 얻었고, 그중 0.2 개는 테스트 목적으로 분리되었으며 다른 샘플은 다른 분류 기준으로 그리드 검색에 포함되었습니다 (교차 유효성 검사 포함). 나는 선형, rbf 및 …

16 classification svm feature-selection random-forest

3

k- 폴드 교차 검증에 대한 그리드 검색

10 배 교차 유효성 검사 설정에서 120 샘플의 데이터 세트가 있습니다. 현재 첫 번째 홀드 아웃의 교육 데이터를 선택하고 그리드 검색을 통해 감마 및 C의 값을 선택하기 위해 5 배 교차 검증을 수행합니다. RBF 커널과 함께 SVM을 사용하고 있습니다. 정밀도를보고하기 위해 10 개의 교차 검증을 수행하고 있으므로 각 홀드 아웃의 …

16 machine-learning classification cross-validation svm

6

가장 빠른 SVM 구현

더 일반적인 질문입니다. 예측 모델링을 위해 rbf SVM을 실행하고 있습니다. 현재 프로그램에 약간의 속도 향상이 필요하다고 생각합니다. 나는 scikit learn을 거친 그리드 검색 + 교차 유효성 검사와 함께 사용합니다. 각 SVM 실행에는 약 1 분이 걸리지 만 모든 반복 작업으로 인해 여전히 너무 느립니다. 결국 여러 코어에서 교차 유효성 검사 …

16 machine-learning svm predictive-models scikit-learn kernel-trick

3

불균형 데이터를위한 SVM

데이터 세트에서 SVM (Support Vector Machine)을 사용하려고합니다. 그래도 문제를 시도하기 전에 SVM이 불균형이 심한 데이터에서 제대로 작동하지 않는다는 경고를 받았습니다. 제 경우에는 최대 95-98 % 0과 2-5 % 1을 가질 수 있습니다. 스파 스 / 언밸런스 드 데이터에서 SVM 사용에 대해 이야기 한 리소스를 찾으려고했지만 'sparseSVM'(소량의 지원 벡터를 사용) 만 …

15 svm libsvm unbalanced-classes

1

귀무 가설 하에서 교환 가능한 샘플의 직관은 무엇입니까?

순열 검정 (랜덤 화 검정, 재 랜덤 화 검정 또는 정확한 검정이라고도 함)은 매우 유용하며, 예를 들어 요구되는 정규 분포 가정이 t-test충족되지 않고 순위에 따라 값을 변환 할 때 유용합니다. 비모수 테스트 Mann-Whitney-U-test는 더 많은 정보가 손실 될 수 있습니다. 그러나 이러한 종류의 테스트를 사용할 때 단 하나의 가정 만 …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

3

서포트 벡터 머신 및 하이퍼 플레인에 대한 직감

내 프로젝트에서 이진 분류 (1 또는 0)를 예측하기위한 로지스틱 회귀 모델을 만들고 싶습니다. 나는 15 개의 변수를 가지고 있는데 그중 2 개는 범주 형이며 나머지는 연속 형과 이산 형 변수가 혼합되어 있습니다. 로지스틱 회귀 모델에 맞추기 위해 SVM, 퍼셉트론 또는 선형 프로그래밍을 사용하여 선형 분리 성을 확인하는 것이 좋습니다. 제안 …

15 machine-learning logistic classification svm separation

5

커널 SVM : 더 높은 차원의 피쳐 공간에 대한 매핑에 대한 직관적 인 이해와 이것이 선형 분리를 가능하게하는 방법을 원합니다.

커널 SVM의 직관을 이해하려고합니다. 이제 선형 SVM의 작동 방식을 이해하고 데이터를 최대한 분할하는 의사 결정 라인을 만듭니다. 또한 데이터를 더 높은 차원의 공간으로 포팅하는 원리와 이것이 새로운 공간에서 선형 의사 결정 라인을 더 쉽게 찾을 수있는 방법을 이해합니다. 내가 이해하지 못하는 것은 커널을 사용하여 데이터 포인트를이 새로운 공간에 투영하는 방법입니다. …

15 machine-learning svm kernel-trick

2

연속 및 이진 데이터를 선형 SVM과 혼합합니까?

그래서 나는 SVM을 가지고 놀고 있었고 이것이 좋은 일인지 궁금합니다. 연속 기능 (0 ~ 1) 세트와 더미 변수로 변환 된 범주 기능 세트가 있습니다. 이 특별한 경우에는 측정 날짜를 더미 변수로 인코딩합니다. 데이터를 보유한 기간은 3 가지이며 3 개의 기능 번호를 예약했습니다. 20:21:22 : 따라서 데이터가 나오는 기간에 따라 다른 …

15 categorical-data svm feature-selection linear-model feature-construction

2

선형 SVM 분류에 스케일링이 중요한 이유는 무엇입니까?

선형 SVM 분류를 수행 할 때, 예를 들어 평균을 빼고 표준 편차로 나눈 후 훈련 데이터를 정규화하고 나중에 시험 데이터를 훈련 데이터의 평균 및 표준 편차로 스케일링하는 것이 도움이됩니다. 이 프로세스가 분류 성능을 크게 변경하는 이유는 무엇입니까?

15 machine-learning svm standardization

1

차원 저주가 일부 모델보다 다른 모델에 영향을 줍니까?

치수 저주에 대해 읽은 장소는 주로 kNN 및 선형 모델과 관련하여 설명합니다. 나는 100k 데이터 포인트가 거의없는 데이터 세트의 수천 가지 기능을 사용하여 Kaggle에서 최고 순위를 정기적으로 봅니다. 그들은 주로 Boosted tree와 NN을 사용합니다. 많은 기능이 너무 높아 보이며 차원 저주의 영향을받는다고 생각합니다. 그러나 이러한 모델이 경쟁에서 최고가 되었기 때문에 …

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

3

"서포트 벡터 머신"및 "제한된 볼츠만 머신"의 "머신"은 무엇을 의미합니까?

왜 그들은 "기계"라고 불리는가? 이 맥락에서 사용 된 "machine"이라는 단어의 기원이 있습니까? "선형 프로그래밍"이라는 이름과 혼동 될 수 있지만 "프로그래밍"이라고하는 이유를 알고 있습니다.

14 svm terminology rbm etymology

3

힌지 손실 대 물류 손실의 장단점

힌지 손실을 이용하여 정의 될 수있는 및 로그 손실로 정의 될 수 로그 ( 1 + EXP ( - Y I w T는 X I를 ) )max(0,1−yiwTxi)max(0,1−yiwTxi)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)log(1+exp(−yiwTxi))log(1+exp⁡(−yiwTxi))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) 다음과 같은 질문이 있습니다. 힌지 손실의 단점이 있습니까 (예 : http://www.unc.edu/~yfliu/papers/rsvm.pdf에 언급 된 특이 치에 민감 함 )? 하나와 다른 …

14 machine-learning svm loss-functions computer-vision

1

로지스틱 회귀와 서포트 벡터 머신의 차이점은 무엇입니까?

로지스틱 회귀 분석에서 훈련 샘플을 분리하는 초평면을 찾습니다. 또한 Support 벡터 머신은 최대 마진을 가진 하이퍼 플레인을 찾습니다. 내 질문 : 로지스틱 회귀 (LR)와 서포트 벡터 머신 (SVM)의 차이점은 LR이 훈련 샘플을 분리하는 하이퍼 플레인을 찾는 반면 SVM은 최대 마진을 가진 하이퍼 플레인을 찾는 것입니까? 아니면 내가 틀렸어? 참고 : …

14 machine-learning classification svm data-mining

2

Support Vector Machine은 불균형 데이터 세트를 처리합니까?

SVM은 불균형 데이터 세트를 처리합니까? 불균형 데이터 세트를 처리하는 매개 변수 (예 : C 또는 분류 오류)가 있습니까?

14 machine-learning svm unbalanced-classes

«svm» 태그된 질문