통계 및 빅 데이터 classification

3

Naive Bayes 분류기는 분류 문제에 널리 사용됩니다. 다음과 같은 여러 가지 이유가 있습니다. "Zeitgeist"-약 10 년 전에 스팸 필터가 성공한 후 널리 인식 쓰기 쉽다 분류기 모델은 빠른 빌드 모델을 다시 만들지 않고도 새로운 교육 데이터로 모델을 수정할 수 있습니다 그러나 이들은 '순진'합니다. 즉, 기능이 독립적이라고 가정합니다. 이는 최대 엔트로피 …

38 classification naive-bayes

2

ImageNet : 상위 1 및 상위 5 오류율이란 무엇입니까?

ImageNet 분류 용지에서 상위 1 및 상위 5 오류율은 일부 솔루션의 성공을 측정하는 데 중요한 단위이지만 이러한 오류율은 무엇입니까? 에 깊은 길쌈 신경망과 ImageNet 분류 Krizhevsky 등으로. 하나의 단일 CNN (7 페이지)을 기반으로하는 모든 솔루션에는 상위 5 개의 오류율이 없지만 5 및 7 개의 CNN이있는 솔루션에는 5 개의 CNN에 비해 …

38 classification neural-networks error measurement-error image-processing

3

전체 문서에 단어 포함을 적용하여 피처 벡터를 얻습니다.

지도 학습에 사용하기에 적합한 단어를 포함하여 문서를 기능 벡터에 매핑하려면 어떻게해야합니까? 워드 삽입은 각각의 워드를 맵핑 벡터에 여기서, 일부하지 너무나 많은 수 (예를 들어, 500)이다. 널리 사용되는 단어 포함 은 word2vec 및 Glove 입니다.v ∈ R d d승wwv ∈ R디v∈Rdv \in \mathbb{R}^d디dd 문서를 분류하기 위해지도 학습을 적용하고 싶습니다. 현재 bag-of-words …

38 classification natural-language supervised-learning word2vec word-embeddings

6

많은 범주 형 변수로 분류 개선

200,000 개 이상의 샘플과 샘플 당 약 50 개의 기능으로 데이터 세트를 작성하고 있습니다. 10 개의 연속 변수와 다른 40 개는 범주 형 변수 (국가, 언어, 과학 분야 등)입니다. 이러한 범주 형 변수의 경우 예를 들어 150 개의 다른 국가, 50 개의 언어, 50 개의 과학 분야 등이 있습니다. 지금까지 …

37 machine-learning classification categorical-data random-forest many-categories

3

SVM, 과적 합, 차원의 저주

내 데이터 세트는 작지만 (120 개의 샘플) 기능의 수가 많으면 (1000-200,000)입니다. 기능의 하위 집합을 선택하기 위해 기능을 선택하고 있지만 여전히 초과 적합 할 수 있습니다. 첫 번째 질문은 SVM이 과적 합을 어떻게 처리하는지입니다. 둘째, 분류의 경우 과적 합에 대해 더 많이 연구함에 따라 소수의 기능을 가진 데이터 세트조차도 과적 합할 …

37 classification svm

2

로지스틱 회귀 분석 vs. LDA 2 클래스 분류기

선형 판별 분석 과 로지스틱 회귀 분석 의 통계적 차이를 둘러 보려고합니다 . 두 클래스 분류 문제의 경우 LDA가 교차하는 선형 경계를 만드는 두 개의 정규 밀도 함수 (각 클래스마다 하나씩)를 예측하는 반면, 로지스틱 회귀는 두 클래스 사이의 로그 홀드 함수 만 예측 한다는 것을 이해하고 있습니까? 경계를 만들지 만 …

36 regression logistic classification discriminant-analysis

3

PCA와 열차 / 시험 분할

이진 레이블 집합이 여러 개인 데이터 집합이 있습니다. 각 레이블 집합에 대해 분류기를 훈련시켜 교차 유효성 검사로 평가합니다. 주성분 분석 (PCA)을 사용하여 차원을 줄이려고합니다. 내 질문은 : 전체 데이터 세트에 대해 PCA를 한 번 수행 한 다음 위에서 설명한대로 교차 검증에 더 낮은 차원의 새 데이터 세트를 사용할 수 있습니까? …

35 machine-learning classification pca cross-validation

3

임의 포리스트에 대한 OOB 및 혼동 행렬을 해석하는 방법은 무엇입니까?

임의의 포리스트 모델을 실행하기 위해 누군가로부터 R 스크립트를 받았습니다. 직원 데이터로 수정하고 실행했습니다. 우리는 자발적인 분리를 예측하려고합니다. 다음은 몇 가지 추가 정보입니다. 분류 모델은 0 = 직원 유지, 1 = 직원 종료, 현재 12 개의 예측 변수 만보고 있습니다. 데이터의 용어는 "불균형"입니다. 총 레코드 세트의 % 다양한 mtry 및 ntree …

35 r classification error random-forest

5

매우 높은 차원 분류를위한 무료 데이터 세트 [닫기]

1000 개 이상의 피쳐 (또는 커브가 포함 된 경우 샘플 포인트) 로 분류 할 수 있는 무료 데이터 세트 는 무엇입니까 ? 무료 데이터 세트에 대한 커뮤니티 위키가 이미 있습니다. 자유롭게 사용 가능한 데이터 샘플 찾기 그러나 여기서는 보다 편리하게 사용할 수 있는 보다 집중적 인 목록을 작성하는 것이 좋으며 …

35 machine-learning classification dataset large-data

3

t-SNE가 군집화 또는 분류를위한 차원 축소 기술로 사용되지 않는 이유는 무엇입니까?

최근 과제에서 MNIST 숫자에 PCA를 사용하여 크기를 64 (8 x 8 이미지)에서 2로 줄이라는 지시를 받았습니다. 그런 다음 가우스 혼합 모델을 사용하여 숫자를 클러스터링해야했습니다. 2 개의 주요 구성 요소 만 사용하는 PCA는 별개의 군집을 생성하지 않으므로 모델이 유용한 그룹화를 생성 할 수 없습니다. 그러나 2 개의 구성 요소와 함께 t-SNE를 …

34 classification clustering pca dimensionality-reduction tsne

3

랜덤 포레스트 모델에서 정확도의 평균 감소 및 평균 감소 GINI를 해석하는 방법

Random Forest 패키지의 변수 중요도 출력을 해석하는 방법을 이해하는 데 어려움이 있습니다. 평균 정확도 감소는 일반적으로 "각 기능의 값을 변경하여 모델 정확도가 감소 함"으로 설명됩니다. 이 기능이 전체 기능 또는 기능 내 특정 값에 대한 설명입니까? 두 경우 모두 모형에서 문제의 특징 (또는 특징의 값)을 제거하여 정확도의 평균 감소가 잘못 …

34 r machine-learning classification random-forest

3

로지스틱 회귀 95 % 신뢰 구간을 수동으로 계산하는 것과 R에서 confint () 함수를 사용하는 것 사이에 차이가있는 이유는 무엇입니까?

사랑하는 여러분, 제가 설명 할 수없는 이상한 것을 발견했습니다. 요약 : 로지스틱 회귀 모델에서 신뢰 구간을 계산하는 수동 방법과 R 함수 confint()는 다른 결과를 제공합니다. Hosmer & Lemeshow의 Applied Logistic Regression (2 판)을 진행했습니다. 세 번째 장에는 승산 비와 95 % 신뢰 구간을 계산하는 예가 있습니다. R을 사용하면 모델을 쉽게 …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

3

'약한 학습자'란 무엇입니까?

누구나 '약한 학습자'라는 구절의 의미를 말해 줄 수 있습니까? 약한 가설이되어야합니까? 나는 약한 학습자와 약한 분류기의 관계에 대해 혼란스러워합니다. 둘 다 같거나 차이가 있습니까? adaboost 알고리즘에서 T=10. 그게 무슨 뜻입니까? 왜 우리는 선택 T=10합니까?

33 classification svm terminology adaboost pac-learning

4

파이썬에서 CRF 구현

파이썬 에서 조건부 난수 필드 의 일반적인 구현이 있습니까? 나는 널리 사용되고 인기있는 것을 찾을 수없는 것 같습니다!

32 machine-learning classification python conditional-random-field

6

텍스트의 통계 분류

저는 통계적 배경이없는 프로그래머이며 현재 사전 정의 된 범주로 분류 할 다양한 문서에 대해 다른 분류 방법을보고 있습니다. kNN, SVM 및 NN에 대해 읽었습니다. 그러나 시작하는 데 문제가 있습니다. 어떤 자료를 추천하십니까? 나는 단일 변수와 다중 변수 미적분학을 잘 알고 있으므로 수학은 충분히 강해야합니다. 또한 Neural Networks에 대한 주교의 책을 …

32 classification information-retrieval text-mining

«classification» 태그된 질문