«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

3
직사각형의 VC 치수
Ethem Alpaydın의 "기계 학습 입문"이라는 책은 축 정렬 사각형의 VC 치수가 4라고 설명합니다. 그러나 사각형이 어떻게 양의 음과 음의 교호를 번갈아 가면서 네 개의 공선 점 집합을 산산조각 낼 수 있습니까? 누군가 직사각형의 VC 치수를 설명하고 증명할 수 있습니까?


1
전처리 단계로 LDA를 사용할 때 기능 표준화
다중 등급 선형 판별 분석 (또는 다중 판별 분석이라고도 함)을 차원 축소 (또는 PCA를 통한 차원 축소 후 변환)에 사용하는 경우 일반적으로 "Z- 점수 정규화"(또는 표준화) 완전히 다른 스케일로 측정 되더라도 기능이 필요하지 않습니까? LDA에 이미 표준화 된 유클리드 거리를 암시하는 Mahalanobis 거리와 유사한 용어가 포함되어 있기 때문에? 따라서 꼭 …

1
RandomForest-sklearn의 분류 임계 값
1) sklearn의 RandomForest에서 분류 임계 값을 변경하려면 어떻게해야합니까 (기본적으로 0.5라고 생각합니까)? 2) 어떻게 sklearn에서 언더 샘플링을 할 수 있습니까? 3) RandomForest 분류기의 결과는 다음과 같습니다. [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 평균 / 총 0.75 0.74 …

3
로지스틱 회귀 : 진 양성 최대화-오 탐지
로지스틱 회귀 모델 (탄성 그물 정규화가있는 R의 glmnet을 통해 적합)이 있으며 참 긍정과 거짓 긍정의 차이를 최대화하고 싶습니다. 이를 위해 다음 절차를 염두에 두었습니다. 표준 로지스틱 회귀 모형 적합 예측 임계 값을 0.5로 사용하여 모든 긍정적 예측 예측 긍정적으로 예측 된 관측 값에는 가중치 1을 할당하고 다른 모든 측정 값에는 …

2
감도와 특이성을 결합한 분류기 성능 측정치?
여러 분류자를 사용하여 분류를 수행하는 데이터로 분류 된 2 클래스가 있습니다. 그리고 데이터 세트의 균형이 잘 잡혀 있습니다. 분류 자의 성능을 평가할 때 분류자가 실제 긍정적 인 것뿐만 아니라 실제 부정적인 것을 결정하는 데 얼마나 정확한지 고려해야합니다. 따라서 정확도를 사용하고 분류자가 긍정적으로 편향되고 모든 것을 긍정적으로 분류하면 진정한 부정을 분류하지 …

5
클래스 라벨의 100 %에 가까운 클래스가 하나의 클래스에 속하는 경우 분류기의 성능을 측정하는 방법은 무엇입니까?
내 데이터에는 로 표시된 클래스 변수가 있습니다. 이 클래스 변수 값은 (이진)입니다. 거의 모든 관측치 는 0입니다 (100 %에 가깝고 더 정확하게는 97 %). 다른 분류 모델에 대한 "성능"테스트를 원합니다 (정확할 수 있음). 내가 두려워하는 것은 항상 관찰을 클래스 0으로 분류하는 분류 모델이 있으면 해당 모델은 다른 변수를 고려하지 않더라도 …

3
LDA 대 퍼셉트론
LDA가 다른지도 학습 기술 내에서 어떻게 '적합'하는지 느끼려고 노력하고 있습니다. LDA에 대한 LDA-esque 게시물을 이미 읽었습니다. 나는 이미 퍼셉트론에 익숙하지만 지금은 LDA를 배우고 있습니다. LDA는지도 학습 알고리즘 제품군에 어떻게 적합합니까? 다른 방법에 비해 단점은 무엇이며 더 잘 사용할 수있는 방법은 무엇입니까? 예를 들어 퍼셉트론을 사용할 수있을 때 왜 LDA를 사용합니까?

2
이진 분류 문제에 사용할 SVM 커널은 무엇입니까?
나는 벡터 머신을 지원할 때 초보자입니다. 특정 문제에 가장 적합한 커널 (예 : 선형, 다항식)을 나타내는 지침이 있습니까? 내 경우에는 특정 정보가 포함되어 있는지 여부에 따라 웹 페이지를 분류해야합니다. 즉, 이진 분류 문제가 있습니다. 일반적으로이 작업에 가장 적합한 커널을 말할 수 있습니까? 아니면 특정 데이터 세트에서 여러 데이터를 사용 해보고 …

1
이벤트 예측을위한 생존 분석
내 데이터 세트의 각 레코드에 대해 다음 정보가 있습니다. (X1 ,… ,Xm ,δ ,T )(X1 ,… ,Xm ,δ ,T ) (X_1 \ , \dots \ , X_m \ , \delta \ , T \ ) 여기서 는 기능이고 는 대상 이벤트가 발생하면 1이고 그렇지 않으면 0이며 는 발생 이벤트의 타임 …

2
관계형 데이터로부터 학습
설정 많은 알고리즘이 단일 관계 또는 테이블에서 작동하지만 많은 실제 데이터베이스는 정보를 여러 테이블에 저장합니다 (Domingos, 2003). 질문 여러 (관계형) 테이블에서 어떤 유형의 알고리즘이 잘 학습됩니까 ? 특히 회귀 및 분류 작업에 적용 할 수있는 알고리즘에 관심이 있습니다 (예 : 네트워크 분석 중심이 아닌 링크 예측). 다음과 같은 여러 가지 …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
하나의 우세 예측 변수로 분류
나는 (케이케이k-클래스) 분류 문제, 100 개의 실제 예측 변수 순서 중 하나가 다른 하나보다 설명력이 훨씬 높은 것으로 보입니다. 다른 변수의 효과에 대해 더 깊이 알고 싶습니다. 그러나 표준 머신 러닝 기술 (임의의 포리스트, SVM 등)은 하나의 강력한 예측 변수에 휩싸여있는 것 같습니다. 이것이 회귀 문제라면, 간단히 강력한 예측 변수에 …

2
분류를 위해 훈련 세트에서 중복 제거
분류 문제에 대해 많은 행이 있다고 가정 해 봅시다. 엑스1, . . .엑스엔, YX1,...XN,YX_1, ... X_N, Y 어디 엑스1, . . . ,엑스엔X1,...,XNX_1, ..., X_N 기능 / 예측 자와 와이YY 행의 기능 조합이 속한 클래스입니다. 많은 기능 조합과 해당 클래스가 데이터 세트에서 반복되어 분류기에 적합합니다. 중복을 제거 할 수 있는지 …

2
시계열의 제로 평균 부분을 찾는 최첨단 방법
나는 평균이 0 인 부분과 0이없는 부분으로 분할해야하는 시끄러운 시계열이 있습니다. 가능한 한 정확하게 경계를 찾는 것이 중요합니다 (확실히 경계가있는 위치는 약간 주관적 임). cusum 변형 이이 작업을 수행하도록 조정할 수 있다고 생각하지만 cusum은 주로 전체 세분화 전략을 완전히 벗어나는 단일 변경 사항을 찾는 것입니다. 이 문제에 대한 많은 연구가 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.