«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

1
귀무 가설 하에서 교환 가능한 샘플의 직관은 무엇입니까?
순열 검정 (랜덤 화 검정, 재 랜덤 화 검정 또는 정확한 검정이라고도 함)은 매우 유용하며, 예를 들어 요구되는 정규 분포 가정이 t-test충족되지 않고 순위에 따라 값을 변환 할 때 유용합니다. 비모수 테스트 Mann-Whitney-U-test는 더 많은 정보가 손실 될 수 있습니다. 그러나 이러한 종류의 테스트를 사용할 때 단 하나의 가정 만 …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
교차 검증에서 평균 (점수) vs 점수 (연결)
TLDR : 내 데이터 세트는 매우 작은 (120) 샘플입니다. 10 배 교차 검증을 수행하는 동안 다음을 수행해야합니다. 각 테스트 폴드에서 출력을 수집하여 벡터로 연결 한 다음이 전체 예측 벡터 (120 개 샘플)에 대한 오류를 계산합니까? 또는 대신 각 겹 에서 얻은 출력 (폴드 당 12 샘플)의 오류를 계산 한 다음 …

2
동전을 뒤집어 분류기 결합
기계 학습 과정을 공부하고 있는데 강의 슬라이드에는 권장 도서와 모순되는 내용이 포함되어 있습니다. 문제는 다음과 같습니다. 세 가지 분류 기가 있습니다. 낮은 범위의 임계 값에서 더 나은 성능을 제공하는 분류기 A 더 높은 범위의 임계 값에서 더 나은 성능을 제공하는 분류기 B 분류기 C p-coin을 뒤집고 두 분류기에서 선택하여 얻는 …

4
고지방 데이터로 분류
수십만 개의 데이터 포인트와 약 10 만 개의 기능을 갖춘 랩톱에서 선형 분류기를 훈련시켜야합니다. 내 옵션은 무엇입니까? 이 유형의 문제에 대한 최신 기술은 무엇입니까? 확률 적 그라디언트 하강이 유망한 방향 인 것 같습니다. 제 감각은 이것이 최첨단이라는 것입니다. "Pegasos : SVM을위한 초기 추정 서브 그 레이디 언트 솔버"Shai Shalev-Shwartz, Yoram …

2
기능 수가 증가하면 정확도가 떨어지지 만 pre / recall이 증가합니다.
저는 머신 러닝을 처음 사용합니다. 현재 NLTK와 python을 사용하여 작은 클래스의 텍스트를 양, 음 또는 중립으로 분류하기 위해 Naive Bayes (NB) 분류기를 사용하고 있습니다. 300,000 개의 인스턴스 (16,924 긍정 7,477 네거티브 및 275,599 개의 중립)로 구성된 데이터 세트를 사용하여 일부 테스트를 수행 한 후 피처 수를 늘리면 정확도는 떨어지지 만 …

5
다른 분류 자의 장단점을 비교하는 좋은 자료는 무엇입니까?
가장 뛰어난 2 급 분류기는 무엇입니까? 예, 그것은 백만 달러짜리 질문이라고 생각합니다. 그리고 무료 점심 식사 정리 를 알고 있습니다. 그리고 이전 질문도 읽었습니다. 어플리케이션에 가장 적합한 2 등급 분류기는 무엇입니까? 그리고 최악의 분류 아직도, 나는 그 주제에 대해 더 많은 것을 읽고 싶습니다. 다른 분류기의 특징, 장점 및 특징에 …

4
시계열의 통계적 유사성
주기, 최대, 최소, 평균 등과 같은 다양한 측정을 수행 할 수있는 시계열이 있다고 가정하고이를 사용하여 동일한 속성을 가진 모델 사인파를 생성한다고 가정 할 수 있습니다. 실제 데이터가 가정 된 모델과 얼마나 밀접하게 일치합니까? 시리즈의 데이터 포인트 수는 10 ~ 50 포인트입니다. 매우 간단한 첫 번째 생각은 사인파의 방향성 움직임에 값을 …

10
어플리케이션에 가장 적합한 2 등급 분류기는 무엇입니까? [닫은]
폐쇄되었습니다 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 삼년 전에 . 규칙 : 답변 당 하나의 분류 자 동의하면 투표 중복을 제거 / 제거합니다. 의견에 당신의 응용 프로그램을 넣어

2
신경 네트워크 대 다른 모든 것
Google 에서 이것에 대한 만족스러운 답변을 찾지 못했습니다 . 물론 내가 가진 데이터가 수백만 정도라면 딥 러닝이 길입니다. 그리고 빅 데이터가 없으면 기계 학습에 다른 방법을 사용하는 것이 좋습니다. 주어진 이유는 과적 합입니다. 기계 학습 : 즉 데이터, 특징 추출, 수집 된 것으로부터 새로운 특징 만들기 등 상관 관계가 큰 …

3
서포트 벡터 머신 및 하이퍼 플레인에 대한 직감
내 프로젝트에서 이진 분류 (1 또는 0)를 예측하기위한 로지스틱 회귀 모델을 만들고 싶습니다. 나는 15 개의 변수를 가지고 있는데 그중 2 개는 범주 형이며 나머지는 연속 형과 이산 형 변수가 혼합되어 있습니다. 로지스틱 회귀 모델에 맞추기 위해 SVM, 퍼셉트론 또는 선형 프로그래밍을 사용하여 선형 분리 성을 확인하는 것이 좋습니다. 제안 …

3
선형 분류기의 경우 더 큰 계수가 더 중요한 특징을 의미합니까?
기계 학습을 담당하는 소프트웨어 엔지니어입니다. 내 이해에서 선형 회귀 (예 : OLS) 및 선형 분류 (예 : 로지스틱 회귀 및 SVM)는 훈련 된 계수 와 특징 변수 사이의 내부 곱을 기반으로 예측합니다 .승⃗ 승→\vec{w}엑스⃗ 엑스→\vec{x} 와이^= f( 승⃗ ⋅ x⃗ ) = f( ∑나는승나는엑스나는)와이^=에프(승→⋅엑스→)=에프(∑나는승나는엑스나는) \hat{y} = f(\vec{w} \cdot \vec{x}) = …

2
랜덤 포레스트에 대해보고 할 훈련 오류는 무엇입니까?
현재 randomForestR 의 패키지를 사용하여 분류 문제에 임의의 포리스트를 적용하고 있으며 이러한 모델의 교육 오류 를보고하는 방법에 대해 잘 모르겠습니다 . 명령으로 얻은 예측을 사용하여 계산하면 내 훈련 오류가 0 %에 가깝습니다. predict(model, data=X_train) X_train훈련 데이터는 어디에 있습니까 ? 관련 질문에 대한 답변에서 , 나는 가방 부족 (OOB) 훈련 오류를 …


5
일련의 입력에 대해 어떤 통계적 분류 알고리즘이 참 / 거짓을 예측할 수 있습니까?
일련의 입력이 주어지면이 시퀀스에 원하는 특정 속성이 있는지 확인해야합니다. 이 속성은 true 또는 false 만 가능합니다. 즉 시퀀스에 속할 수있는 클래스는 두 개뿐입니다. 시퀀스와 속성 간의 정확한 관계는 불분명하지만, 이것이 매우 일관되고 통계적 분류에 적합하다고 생각합니다. 분류기를 훈련시키는 사례가 많이 있지만,이 훈련 세트에서 시퀀스에 잘못된 클래스가 할당 될 가능성이 약간 …

2
정밀 리콜 곡선에서 "기준선"이란 무엇입니까
정밀 리콜 곡선을 이해하려고하지만 정밀도와 리콜이 무엇인지 이해하지만 이해하지 못하는 것은 "기준"값입니다. 나는이 링크를 읽고 있었다 https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ "완벽한 분류기의 정밀 리콜 곡선"에 표시된대로 기준 부분을 이해하지 못합니까? 어떻게 계산합니까? 우리가 선택한 임의의 기준입니까? 예를 들어 retweet,status_countetc와 같은 속성을 가진 트위터 데이터가 있고 내 클래스 레이블은 FavoritedFavorited 이면 1이고 Favorited가 아닌 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.