«unbalanced-classes» 태그된 질문

개별 클래스 또는 * 클래스 *로 구성된 데이터는 각 클래스에 속하는 관측치 ( )가 클래스 전체에서 일정하지 않은 경우 특정 분석에 문제가 발생할 수 있습니다. 이 다른 클래스 는 * 언밸런스 드입니다 *. nn

3
로지스틱 회귀 분석을 수행 할 때 불균형 샘플이 중요합니까?
저는 20 : 1의 경험 법칙 (총 7 개의 후보 예측 변수에 대해 상당히 큰 표본 (N = 374))을 고려하여 적절한 표본을 가지고 있다고 생각합니다. 내 문제는 다음과 같습니다. 내가 사용하는 예측 변수 집합에 관계없이 분류는 100 %의 특이도 및 0 %의 감도보다 나아지지 않습니다. 그러나 불만족 스럽지만 후보 예측 …

6
강하게 불균형이있는 이진 분류
(기능, 이진 출력 0 또는 1) 형식의 데이터 세트가 있지만 1은 거의 발생하지 않으므로 항상 0을 예측하면 70 %에서 90 % 사이의 정확도를 얻습니다 (내가 보는 특정 데이터에 따라 다름) ). ML 방법은 동일한 정확도를 제공하며,이 상황에서 적용 할 표준 방법이 있어야 분명한 예측 규칙보다 정확도를 향상시킬 수 있다고 생각합니다.

5
기계 학습에서 불균형 데이터가 실제로 문제가되는시기는 언제입니까?
로지스틱 회귀 , SVM , 의사 결정 트리 , 배깅 및 기타 여러 가지 유사한 질문을 사용할 때 불균형 데이터에 대한 여러 가지 질문이 이미있었습니다 . 불행히도, 각 질문은 알고리즘에 특정한 것으로 보이며 불균형 데이터를 다루는 일반적인 지침을 찾지 못했습니다. Marc Claesen의 답변 중 하나를 인용 하여 불균형 데이터 처리 …

4
지도 머신 러닝의 수업 불균형
이것은 일반적으로 질문이나 방법이나 데이터 세트에만 국한되지 않습니다. 데이터 세트에서 0의 수가 90 %이고 1의 수가 10 % 인 Supervised Machine 학습에서 클래스 불균형 문제를 처리하는 방법 분류기를 최적으로 훈련시키는 방법 내가 따르는 방법 중 하나는 데이터 세트의 균형을 잡고 분류기를 훈련시키고 여러 샘플에 대해 이것을 반복하기 위해 샘플링하는 것입니다. …

4
불균형 데이터에 대한 의사 결정 트리 교육
데이터 마이닝을 처음 사용하고 있으며 불균형이 심한 데이터 세트에 대해 의사 결정 트리를 훈련하려고합니다. 그러나 예측 정확도가 좋지 않습니다. 데이터는 코스를 공부하는 학생들로 구성되며 클래스 변수는 취소됨 또는 현재의 두 값을 갖는 코스 상태입니다. 나이 민족 성별 코스 ... 코스 상태 데이터 세트에는 Withdrawn보다 Current 인 인스턴스가 더 많습니다. 철회 …

1
다운 샘플링은 로지스틱 회귀 계수를 변경합니까?
매우 드물게 양수 클래스가있는 데이터 세트가 있고 음수 클래스를 다운 샘플링 한 다음 로지스틱 회귀를 수행하는 경우 양수 클래스의 보급률을 변경했다는 사실을 반영하기 위해 회귀 계수를 조정해야합니까? 예를 들어, Y, A, B 및 C의 변수가 4 개인 데이터 집합이 있다고 가정 해 보겠습니다. Y, A 및 B는 이진수이고 C는 연속적입니다. …

3
클래스 불균형 문제의 근본 원인은 무엇입니까?
나는 최근 기계 / 통계학 학습에서 "클래스 불균형 문제"에 대해 많은 생각을하고 있었고, 무슨 일이 일어나고 있는지 이해하지 못하는 느낌에 더 깊이 빠져들고 있습니다. 먼저 용어를 정의 (또는 정의)하려고합니다. 클래스 불균형 문제 기계 / 통계적 학습 1 등급 0 등급의 비율이 매우 기울어 진 경우 일부 분류 (*) 알고리즘이 잘 …

4
클래스 불균형 하에서 정밀 리콜 곡선 최적화
나는 많은 예측 변수가있는 분류 작업을 가지고 있는데 (그중 하나가 가장 유익합니다) MARS 모델을 사용하여 분류기를 구성하고 있습니다 (나는 간단한 모델에 관심이 있으며 설명을 위해 glms를 사용하는 것은 다음과 같습니다) 미세 너무). 이제 훈련 데이터 (각 양성 샘플에 대해 약 2700 개의 음성 샘플)에 큰 클래스 불균형이 있습니다. Information Retrieval …

4
교육 데이터 세트에서 수업의 균형을 언제 조정해야합니까?
나는 온라인 교육 과정을 통해 훈련 데이터의 불균형 수업이 문제를 일으킬 수 있다는 점을 배웠다. 불균형이 너무 클 경우 분류 알고리즘이 많은 규칙을 따르기 때문에 좋은 결과를 얻을 수 있기 때문이다. 과제에서 대다수 클래스를 언더 샘플링하여 데이터의 균형을 조정해야했습니다. 그러나이 블로그에서 누군가는 균형 잡힌 데이터가 더 나쁘다고 주장합니다. https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ 그래서 …

6
로지스틱 회귀 분석의 표본 크기?
설문 조사 데이터에서 물류 모델을 만들고 싶습니다. 응답자 154 명만 인터뷰 한 4 개의 거주지 식민지에 대한 소규모 조사입니다. 내 종속 변수는 "만족스러운 전환으로 작동"입니다. 154 명의 응답자 중 73 명은 만족스럽게 직장으로 전환했지만 나머지는 그렇지 않다는 것을 알았습니다. 따라서 종속 변수는 본질적으로 이진이며 로지스틱 회귀를 사용하기로 결정했습니다. 7 개의 …

4
불균형 데이터 세트에 대해 xgboost에서 scale_pos_weight의 올바른 사용법은 무엇입니까?
매우 불균형 한 데이터 집합이 있습니다. 튜닝 조언 을 따르고 사용 scale_pos_weight하려고하지만 어떻게 튜닝 해야하는지 잘 모르겠습니다. 나는 그것을 볼 수 있습니다 RegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight 양성 샘플의 기울기가 더 영향을 미칩니다. 그러나 xgboost paper 에 따르면 그라디언트 통계는 항상 특정 트리의 특정 노드 인스턴스 내에서 …

4
오버 샘플링, 언더 샘플링 및 SMOTE는 어떤 문제를 해결합니까?
최근에 잘 수신 된 질문에서 팀은 언제 머신 러닝에서 불균형 데이터가 실제로 문제 가 되는지 묻습니다 . 문제의 전제는 수업 균형 과 불균형 수업의 문제에 대해 많은 머신 러닝 문헌이 있다는 것입니다 . 아이디어는 긍정적 클래스와 부정적인 클래스 사이의 불균형이있는 데이터 세트가 일부 기계 학습 분류 (여기서는 확률 모델 포함) …

2
테스트 세트와 트레이닝 세트의 분포 차이를 처리하는 방법은 무엇입니까?
머신 러닝이나 파라미터 추정의 기본 가정 중 하나는 보이지 않는 데이터가 훈련 세트와 동일한 분포에서 나온다고 생각합니다. 그러나 실제 사례의 경우 테스트 세트의 분포가 훈련 세트와 거의 다릅니다. 제품 설명을 약 17,000 개의 클래스로 분류하려는 대규모 다중 분류 문제가 있다고 가정 해보십시오. 훈련 세트는 수업에 치우친 수업이 있기 때문에 일부 …

3
불균형이 높은 데이터에 대한 분류 / 평가 지표
사기 감지 (신용 채점) 문제를 처리합니다. 따라서 사기와 비 사기 관찰 사이에는 불균형 관계가 있습니다. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html 은 다양한 분류 지표에 대한 훌륭한 개요를 제공합니다. Precision and Recall또는 kappa둘 다 좋은 선택 인 것 같습니다. 이러한 분류기의 결과를 정당화하는 한 가지 방법은 결과를 기준 분류기의 결과와 비교하고 결과가 무작위 확률 예측보다 …

5
회귀 분석에서 불균형 데이터 샘플링
분류 컨텍스트 에서 불균형 데이터 처리에 대한 좋은 질문이 있었지만 회귀 분석을 위해 사람들이 무엇을하는지 궁금합니다. 문제 영역이 부호에 매우 민감하지만 목표의 크기에만 다소 민감하다고 가정하십시오. 그러나 크기는 분류가 아닌 회귀 (연속 목표) 여야합니다 (양성 클래스와 음수 클래스). 그리고이 문제 영역에서 모든 훈련 데이터는 긍정적 인 목표보다 10 배 더 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.