«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

2
여러 대상 또는 클래스를 예측 하시겠습니까?
여러 이벤트를 예측하려고하는 예측 모델을 구축한다고 가정합니다 (예 : 주사위 굴림과 동전 던지기). 내가 익숙한 대부분의 알고리즘은 하나의 대상에서만 작동하므로 이런 종류의 표준 접근 방식이 있는지 궁금합니다. 가능한 두 가지 옵션이 있습니다. 아마도 가장 순진한 접근 방식은 단순히 두 가지 다른 문제로 처리 한 다음 결과를 결합하는 것입니다. 그러나 두 …

1
Brier 점수와 유사한 평균 절대 오차의 이름은 무엇입니까?
어제의 질문 사건 확률을 추정하는 모델의 정확성을 결정 하여 확률 점수에 대해 궁금해했습니다. 찔레 점수 이고 평균 제곱 오차 측정. 유사한 평균 절대 오차 성능 측정이 이름도 있니?1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1N∑i=1N|predictioni−referencei|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i|


1
t-SNE가 클래스를 잘 분리한다는 것을 알면 어떤 분류 알고리즘을 사용해야합니까?
분류 문제가 있다고 가정하고 처음에는 데이터에서 통찰력을 얻고 t-SNE를 수행한다고 가정 해 봅시다. t-SNE의 결과는 클래스를 잘 분리합니다. 이것은 클래스를 아주 잘 분리하는 분류 모델을 만들 수 있음을 의미합니다 (t-SNE가 잘 분리되지 않으면 많은 것을 암시하지 않습니다). t-SNE는 로컬 구조에 중점을두고 클래스를 잘 분리 할 수 ​​있다는 것을 알고 있습니다.이 …

2
이진 분류 문제에서 auc 대 logloss 최적화
결과 확률이 매우 낮은 이진 분류 작업을 수행하고 있습니다 (3 %). AUC 또는 로그 손실로 최적화할지 여부를 결정하려고합니다. 내가 아는 한, AUC는 클래스를 구별하는 모델의 능력을 최대화하는 반면, logloss는 실제 확률과 추정 된 확률 사이의 차이를 불이익을줍니다. 내 작업에서 정밀 정확도를 교정하는 것이 매우 중요합니다. 그래서 logloss를 선택하지만 최고의 log-loss …

1
오 탐지 횟수를 줄이는 방법은 무엇입니까?
보행자 감지 라는 작업을 해결하려고 노력하고 있으며 사람, 부정-배경이라는 두 가지 범주의 긍정적 인 이진 clasifer를 훈련시킵니다. 데이터 세트가 있습니다. 긍정 수 = 3752 음수 = 3800 train \ test split 80 \ 20 % 및 RandomForestClassifier 양식 scikit-learn 을 매개 변수와 함께 사용합니다. RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 점수를 얻습니다 …

1
임의 포리스트 (또는 다른 분류기)를 사용한 계층화 된 분류
저는 약 60 x 1000의 행렬을 가지고 있습니다. 저는 1000 개의 특징을 가진 60 개의 물체로보고 있습니다; 60 개의 객체는 3 개의 클래스 (a, b, c)로 그룹화됩니다. 각 클래스에 20 개의 개체가 있으며 실제 분류를 알고 있습니다. 이 60 가지 교육 예제 세트에 대해지도 학습을하고 싶습니다. 분류기 정확도 (및 관련 …

3
매우 작은 세트의 이상치 탐지
12 개의 샘플 광도 값이 주어지면 주로 안정적인 광원의 밝기 값을 최대한 정확하게 얻어야합니다. 센서가 불완전하고 빛이 때때로 "깜박 거리며"밝거나 어두워 지므로 무시할 수 있습니다. 따라서 이상치 탐지가 필요합니다. 나는 다양한 접근 방식을 읽었으며 어떤 접근 방식을 결정할 수 없습니다. 특이 치의 수는 미리 알려져 있지 않으며 종종 0입니다. 플리커는 …


3
VC 치수가 중요한 이유
Wikipedia 는 다음과 같이 말합니다. VC 차원은 알고리즘이 산산조각 낼 수있는 가장 큰 점 집합의 카디널리티입니다. 예를 들어 선형 분류기는 카디널리티 n + 1을 갖습니다. 내 질문은 왜 우리가 관심을 갖는가? 선형 분류를 수행하는 대부분의 데이터 세트는 매우 큰 경향이 있으며 많은 점이 포함됩니다.

3
멀티 클래스 분류기의 혼동 행렬을 작성하는 방법은 무엇입니까?
6 개의 수업에 문제가 있습니다. 그래서 다음과 같이 멀티 클래스 분류기를 작성합니다. 각 클래스마다 One vs. All을 사용하여 하나의 Logistic Regression 분류 기가 있습니다. 즉, 6 개의 다른 분류자가 있습니다. 분류기 각각에 대해 혼동 매트릭스를보고 할 수 있습니다. 그러나 여기 많은 예에서 보았 듯이 모든 분류 자에 대한 혼동 행렬을보고하고 …

1
Adaboost에서 의사 결정 그루터기를 약한 학습자로 사용하는 방법은 무엇입니까?
Decision Stump를 사용하여 Adaboost를 구현하고 싶습니다. Adaboost를 반복 할 때마다 데이터 세트의 기능만큼 많은 의사 결정을 내릴 수 있습니까? 예를 들어, 24 개의 기능이있는 데이터 세트가있는 경우 각 반복마다 24 개의 의사 결정 스텀프 분류 기가 있어야합니까? 아니면 무작위로 일부 기능을 선택하고 모든 기능 대신 분류기를 만들어야합니까?

5
분류에서와 같이 0.5 수준이 아닌 0.05 수준에서 귀무 가설을 기각하는 이유
가설 검정은 분류 문제와 유사합니다. 즉, 우리는 유죄 대 비 유죄 관찰에 대한 두 가지 가능한 레이블이 있습니다. 비 유죄를 귀무 가설로 삼으십시오. 분류 관점에서 문제를 본다면 데이터를 고려하여 두 분류에 속하는 주제의 확률을 예측하는 분류기를 훈련시킬 것입니다. 그런 다음 확률이 가장 높은 클래스를 선택합니다. 이 경우 0.5 확률이 자연 …

2
R의 분류 모델에 대한 증분 학습
아래 코드를 사용하여 사기 탐지를위한 분류 자 (결정 트리, 임의 포리스트, 로지스틱 회귀 등과 같은 표준 분류 자 ​​중 하나 일 수 있음) 가 있다고 가정합니다 . library(randomForest) rfFit = randomForest(Y ~ ., data = myData, ntree = 400) # A very basic classifier Say, Y is a binary outcome …

2
Bayes Classifier가 이상적인 분류자인 이유는 무엇입니까?
범주의 기초가되는 확률 구조가 완벽하게 알려진 이상적인 경우로 간주됩니다. 왜 Bayes 분류기를 사용하여 달성 할 수있는 최고의 성능을 달성 할 수 있습니까? 이에 대한 공식적인 증거 / 설명은 무엇입니까? 우리는 항상 다른 모든 분류기의 성능을 비교하기 위해 Bayes 분류기를 벤치 마크로 사용합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.