«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

1
분류기 평가 : 학습 곡선과 ROC 곡선
대규모 교육 데이터 세트를 사용하는 다중 클래스 텍스트 분류 문제에 대해 2 개의 다른 분류기를 비교하고 싶습니다. ROC 곡선을 사용해야하는지 아니면 학습 곡선을 사용하여 두 분류기를 비교해야하는지 궁금합니다. 한편, 학습 곡선은 분류 기가 학습을 중단하고 저하 될 수있는 데이터 세트의 크기를 찾을 수 있기 때문에 학습 데이터 세트의 크기를 결정하는 …

4
AUC는 각 클래스에서 무작위로 선택된 인스턴스를 올바르게 분류 할 가능성이 있습니까?
나는이 자막을 종이로 읽었고 AUC가 다른 곳에서는 이런 식으로 묘사 된 것을 본 적이 없다. 이것이 사실입니까? 이것을 볼 수있는 증거 또는 간단한 방법이 있습니까? 그림 2는 수신기 작동 특성 곡선 (AUC) 아래 영역으로 표현 된 이분법 변수의 예측 정확도를 보여줍니다. 이는 각 등급에서 무작위로 선택된 두 명의 사용자 (예 …

2
f- 측정은 정확성과 동의어입니까?
나는 f- 측정 (정밀도와 리콜에 기초한)이 분류 기가 얼마나 정확한지 추정한다는 것을 이해합니다. 또한 불균형 데이터 세트가있을 때 정확도보다 f- 측정이 선호 됩니다. 간단한 질문이 있습니다 (기술보다는 올바른 용어를 사용하는 것에 관한 것입니다). 불균형 데이터 세트가 있으며 실험에서 f- 측정을 사용합니다. 머신 러닝 / 데이터 마이닝 회의 가 아닌 논문을 …

5
모든 비용으로 비닝을 피해야하는 이유는 무엇입니까?
비닝을 항상 피해야하는 이유에 대한 몇 가지 게시물을 읽었습니다 . 이 링크에 대한 해당 주장에 대한 대중적인 참조 . 비닝 포인트 (또는 컷 포인트)는 결과적으로 손실되는 정보뿐만 아니라 임의적이며 스플라인이 선호되어야합니다. 그러나 현재 Spotify API를 사용하고 있습니다. Spotify API는 여러 기능에 대한 지속적인 자신감 측정 방법이 있습니다. 하나의 기능 "instrumentalness"를 …

3
분류에서 LDA 대신 PCA를 언제 사용 하시겠습니까?
원리 성분 분석과 다중 판별 분석 (선형 판별 분석)의 차이점에 대한 이 기사 를 읽고 있으며 MDA / LDA가 아닌 PCA를 왜 사용해야하는지 이해하려고 노력하고 있습니다. 설명은 다음과 같이 요약됩니다. PCA에서 대략적으로 말하면 데이터가 가장 널리 퍼져있는 곳 (PCA가 전체 데이터 세트를 하나의 클래스로 취급하기 때문에 클래스 내에서)이 최대 편차를 …

1
신경망은 일반적으로 훈련 중에“킥 인”하는 데 시간이 걸립니까?
역 전파를 사용하여 분류를 위해 심층 신경망을 훈련하려고합니다. 특히, Tensor Flow 라이브러리를 사용하여 이미지 분류에 회선 신경망을 사용하고 있습니다. 훈련하는 동안 이상한 행동을 겪고 있으며 이것이 전형적인 것인지 또는 내가 잘못하고 있는지 궁금합니다. 그래서 내 컨볼 루션 신경망에는 8 개의 레이어 (5 컨볼 루션, 3 개의 완전히 연결된)가 있습니다. 모든 …

3
RBF SVM 사용 사례 (로지스틱 회귀 및 임의 포리스트)
지원 벡터 기계 와 방사형 기본 기능 커널은 범용이 분류를 감독이다. 이러한 SVM에 대한 이론적 기초와 장점을 알고 있지만 이들이 선호되는 방법에 대해서는 알지 못합니다. 그렇다면 RBF SVM이 다른 ML 기술보다 우월한 문제가 있습니까? (점수 또는 기타 견고성, 시작하기 쉬움, 해석 가능성 등) 기본 접근 방식은 로지스틱 회귀 (아마도 일부 …

4
선형 분류기로 과적 합
오늘 우리 교수는 수업에서 "선형 분류기로 과적 합하는 것은 불가능하다"고 말했습니다. 선형 분류 자조차도 훈련 세트의 특이 치에 민감 할 수 있기 때문에 잘못 알고 있습니다. 아니면 내가 틀렸어? 분명히, 선형성은 아마도 모델 복잡성이 낮아서 오버 피팅을 방지 할 수 있지만 여전히 오버 피팅이 불가능한 이유는 알 수 없습니다. 한 …

2
분류 목적으로 데이터를 테스트하기 위해 PCA 적용
최근에 훌륭한 PCA에 대해 배웠으며 scikit-learn documentation에 요약 된 예를 수행했습니다 . 분류 목적으로 새 데이터 포인트에 PCA를 적용하는 방법을 알고 싶습니다. PCA를 2 차원 평면 (x, y 축)으로 시각화 한 후 한 점은 한 분류가되고 다른 한 분류는 분류 할 수 있도록 데이터 점을 구분하기 위해 선을 그릴 수 …

1
불균형 데이터 세트에 대한 ROC 곡선
입력 행렬 와 이진 출력 고려하십시오 .y엑스엑스X와이와이y 분류기의 성능을 측정하는 일반적인 방법은 ROC 곡선을 사용하는 것입니다. ROC 플롯에서 대각선은 랜덤 분류기에서 얻은 결과입니다. 불균형 출력 의 경우, 확률이 다른 또는 을 선택하여 랜덤 분류기의 성능을 향상시킬 수 있습니다 .0 1와이와이y000111 이러한 분류기의 성능을 ROC 곡선 플롯으로 어떻게 표현할 수 있습니까? …

2
R randomForests에서 분류 임계 값을 변경하는 방법은 무엇입니까?
모든 종 분포 모델링 문헌은 확률 (예를 들어, 랜덤 포레스트)을 출력하는 모델을 사용하여 종의 존재 유무를 예측할 때 실제로 존재 또는 부재로 종을 분류 할 수있는 임계치 확률의 선택이 중요하며 항상 기본값 인 0.5를 사용하지는 않습니다. 이것에 대한 도움이 필요합니다! 내 코드는 다음과 같습니다. library(randomForest) library(PresenceAbsence) #build model RFfit <- …

3
로지스틱 회귀 분석에 대한 베이지안 적합도를 시각화하는 방법
베이지안 로지스틱 회귀 문제의 경우, 사후 예측 분포를 만들었습니다. 예측 분포에서 표본을 추출하고 내가 가진 각 관측치에 대해 (0,1)의 표본을 수천 개받습니다. 예를 들어 적합도를 시각화하는 것은 흥미롭지 않습니다. 이 그림은 10,000 개의 샘플 + 관측 된 데이텀 포인트를 보여줍니다 (왼쪽에서 빨간색 선을 만들 수 있음). 문제는이 음모가 거의 유익하지 …

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
"모델 학습"이라는 용어는 어디에서 유래 되었습니까?
종종 데이터 마이너가이 용어를 사용한다고 들었습니다. 분류 문제를 다루는 통계 학자로서 저는 "분류기를 훈련 시키십시오"라는 용어에 익숙하며 "모델을 배우십시오"라는 말도 같은 의미라고 생각합니다. "분류기를 훈련 시키십시오"라는 용어는 신경 쓰지 않습니다. 훈련 데이터를 사용하여 모델 매개 변수의 양호하거나 "향상된"추정값을 얻는 데 모델을 적합시키는 아이디어를 나타내는 것 같습니다. 그러나 배운다는 것은 지식을 …

1
덴드로 그램 클러스터링에 대한 공동 현상 상관 관계
덴드로 그램 클러스터링의 컨텍스트를 고려하십시오. 우리가 부르 자 원래의 비 유사성에게 개인 사이의 거리를. 덴드로 그램을 구성한 후, 우리는 이 개인들이 속한 클러스터들 사이의 거리로서 두 개인들 사이 의 공 재적 비 유사성 을 정의합니다 . 일부 사람들은 원래의 비 유사성과 코페 네틱 비 유사성 ( 코페 네틱 상관 )이 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.