«unbalanced-classes» 태그된 질문

개별 클래스 또는 * 클래스 *로 구성된 데이터는 각 클래스에 속하는 관측치 ( )가 클래스 전체에서 일정하지 않은 경우 특정 분석에 문제가 발생할 수 있습니다. 이 다른 클래스 는 * 언밸런스 드입니다 *. nn

2
불균형 데이터에 대한 로지스틱 회귀에 가중치 추가
불균형 데이터 (9 : 1)로 로지스틱 회귀를 모델링하려고합니다. glmR 의 함수에서 가중치 옵션을 시도하고 싶었지만 100 % 확실하지 않습니다. 내 출력 변수가 c(0,0,0,0,0,0,0,0,0,1)입니다. 이제 "1"의 무게를 10 배 더 늘리고 싶습니다. 그래서 가중치 인수를 제공합니다 weights=c(1,1,1,1,1,1,1,1,1,1,1,10). 그렇게하면 최대 가능성을 계산할 때 고려됩니다. 내가 맞아? "1"의 오 분류는 "0"의 오 분류보다 …

2
분산 분석에서 변수의 순서는 중요하지 않습니까?
다중 요인 분산 분석에 변수를 지정하는 순서가 차이를 만들지 만 다중 선형 회귀 분석을 수행 할 때 순서는 중요하지 않다는 것을 이해하는 것이 맞습니까? 측정 된 혈액 손실 y 및 두 가지 범주 형 변수와 같은 결과를 가정 선종 절제술 방법 a , 편도 절제술 방법 b . 모델 y~a+b이 …

2
오버 샘플링 된 불균형 데이터에 대한 분류 테스트
심각하게 불균형 한 데이터를 작업 중입니다. 문헌에서, 리샘플링 (과다 또는 과소 샘플링)을 사용하여 데이터를 재조정하기 위해 여러 방법이 사용됩니다. 두 가지 좋은 접근 방식은 다음과 같습니다. SMOTE : 합성 소수 오버 샘플링 TEchnique ( SMOTE ) ADASYN : 불균형 학습을위한 적응 형 합성 샘플링 접근법 ( ADASYN ) ADASYN은 적응성이 …

3
불균형 데이터 셋의 ROC vs 정밀 리콜 곡선
방금 이 토론을 읽었습니다 . 그들은 PR AUC가 불균형 데이터 세트에서 ROC AUC보다 낫다고 주장합니다. 예를 들어 테스트 데이터 세트에 10 개의 샘플이 있습니다. 9 개의 샘플은 양수이고 1은 음수입니다. 모든 것을 긍정적으로 예측하는 끔찍한 모델이 있습니다. 따라서 TP = 9, FP = 1, TN = 0, FN = 0이라는 …

2
GBM 분류에 불균형 한 수업 규모가 있습니까?
감독 이진 분류 문제를 처리하고 있습니다. GBM 패키지를 사용하여 개인을 감염되지 않은 / 감염된 것으로 분류하고 싶습니다. 감염된 사람보다 15 배나 더 감염되지 않았습니다. 클래스 크기가 불균형 한 경우 GBM 모델이 어려움을 겪고 있는지 궁금합니다. 이 질문에 대한 답변이 없습니다. 감염되지 않은 개인에게 1의 무게를, 감염된 사람에 15의 무게를 할당하여 …

3
불균형이 심한 환경에서 비용에 민감한 학습을위한 제안
몇 백만 행과 ~ 100 열의 데이터 집합이 있습니다. 공통 클래스에 속하는 데이터 세트의 예제 중 약 1 %를 감지하고 싶습니다. 최소 정밀도 제약이 있지만 매우 비대칭 적 인 비용으로 인해 특정 리콜에 너무 열중하지 않습니다 (10 개의 긍정적 인 일치가 남지 않는 한)! 이 설정에서 권장 할 몇 가지 …

3
불균형 데이터를위한 SVM
데이터 세트에서 SVM (Support Vector Machine)을 사용하려고합니다. 그래도 문제를 시도하기 전에 SVM이 불균형이 심한 데이터에서 제대로 작동하지 않는다는 경고를 받았습니다. 제 경우에는 최대 95-98 % 0과 2-5 % 1을 가질 수 있습니다. 스파 스 / 언밸런스 드 데이터에서 SVM 사용에 대해 이야기 한 리소스를 찾으려고했지만 'sparseSVM'(소량의 지원 벡터를 사용) 만 …



1
언밸런스 드 클래스 오버 / 언더 샘플링시 정확도를 극대화하는 것은 오 분류 비용을 최소화하는 것과 다른가?
우선, 데이터 마이닝 책에서 언밸런스 드 데이터 세트 를 처리하는 방법을 설명하는 데 사용되는 일반적인 레이아웃에 대해 설명하겠습니다 . 일반적으로 주 섹션은 언밸런스 드 데이터 셋 (Unbalanced Datasets)으로 구성되며 비용에 민감한 분류 및 샘플링 기법이라는 두 가지 하위 섹션을 포함합니다. 드문 클래스 에서 문제가 발생 하면 비용에 민감한 분류와 샘플링을 …

1
1 %와 같은 낮은 이벤트 속도의 데이터에 그라디언트 부스팅이 적합합니까?
Enterprise miner를 사용하여 이벤트 속도가 약 1 % 인 데이터 세트에서 그라디언트 향상을 시도하고 있지만 출력을 생성하지 못했습니다. 내 질문은 의사 결정 트리 기반의 접근 방식이므로 그러한 낮은 이벤트에서 그라디언트 부스팅을 사용하는 것이 옳습니까?

2
로지스틱 회귀 분석에 P> 0.5 컷오프가 "최적"이 아닌 이유는 무엇입니까?
PREFACE : 컷오프 사용의 장점 또는 컷오프 선택 방법에 대해서는 신경 쓰지 않습니다. 내 질문은 순전히 수학적이며 호기심 때문입니다. 로지스틱 회귀는 클래스 A 대 클래스 B의 사후 조건부 확률을 모델링하며 사후 조건부 확률이 동일한 초평면에 적합합니다. 따라서 이론적으로 0.5 분류 포인트는 사후 확률을 모델링하기 때문에 (균일 한 동일한 클래스 비율이 …

1
오 탐지 횟수를 줄이는 방법은 무엇입니까?
보행자 감지 라는 작업을 해결하려고 노력하고 있으며 사람, 부정-배경이라는 두 가지 범주의 긍정적 인 이진 clasifer를 훈련시킵니다. 데이터 세트가 있습니다. 긍정 수 = 3752 음수 = 3800 train \ test split 80 \ 20 % 및 RandomForestClassifier 양식 scikit-learn 을 매개 변수와 함께 사용합니다. RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 점수를 얻습니다 …

1
불균형 데이터 셋 생성
훈련 된 모델을 불균형 데이터 세트에서 테스트하고 싶습니다. 균형 레이블이 지정된 데이터 집합 (스팸 / 스팸이 아닌)에서 합성 데이터를 생성하는 데 사용할 수있는 알고리즘이 있습니까?

3
고정밀 또는 리콜 이진 분류기를 얻기 위해 어떤 손실 함수를 사용해야합니까?
슬라이딩 / 크기 조정 창에 적용된 CNN 이진 분류기를 사용하여 매우 드물게 발생하는 물체 (이미지에서)를 탐지하려고합니다. 균형 잡힌 1 : 1 양의 음수 훈련 및 테스트 세트를 구성했으며 (이 경우 btw입니까?) 분류기는 정확도 측면에서 테스트 세트에서 잘 수행됩니다. 이제 분류기의 리콜 / 정밀도를 제어하고 싶습니다. 예를 들어, 대다수 클래스 발생에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.