«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

1
의사 결정 트리의 깊이
의사 결정 트리 알고리즘은 모든 단계에서 속성으로 분할되므로 의사 결정 트리의 최대 깊이는 데이터의 속성 수와 같습니다. 이 올바른지?

3
데이터 확대 및 기차 검증 분할을 수행하는 방법은 무엇입니까?
기계 학습을 사용하여 이미지 분류를하고 있습니다. 교육 데이터 (이미지)가 있고 데이터를 교육 및 유효성 검사 세트로 분할한다고 가정합니다. 또한 임의 회전 및 노이즈 주입을 통해 데이터를 확대 (원본 이미지에서 새 이미지 생성)하고 싶습니다. 기능 보강은 오프라인으로 수행됩니다. 데이터 기능 보강을 수행하는 올바른 방법은 무엇입니까? 먼저 데이터를 교육 및 유효성 검사 …

1
로지스틱 회귀와 서포트 벡터 머신의 차이점은 무엇입니까?
로지스틱 회귀 분석에서 훈련 샘플을 분리하는 초평면을 찾습니다. 또한 Support 벡터 머신은 최대 마진을 가진 하이퍼 플레인을 찾습니다. 내 질문 : 로지스틱 회귀 (LR)와 서포트 벡터 머신 (SVM)의 차이점은 LR이 훈련 샘플을 분리하는 하이퍼 플레인을 찾는 반면 SVM은 최대 마진을 가진 하이퍼 플레인을 찾는 것입니까? 아니면 내가 틀렸어? 참고 : …

1
기계 학습 분류기 (big-O) 또는 복잡성
새로운 분류 알고리즘의 성능을 평가하기 위해 정확성과 복잡성을 비교하려고합니다 (훈련 및 분류에서 큰 O). 에서 기계 학습 : 리뷰는 내가 알고리즘 사이 또한, 정확성 테이블을 완전한 감독 분류 목록을 얻고, 44 시험 문제 UCI 데이터 repositoy . 그러나 다음과 같은 일반적인 분류 기준이 큰 리뷰, 종이 또는 웹 사이트를 찾을 …

3
랜덤 포레스트 모델에서 최신 데이터 가중치 부여
6 가지 범주를 구분하기 위해 Random Forest로 분류 모델을 훈련하고 있습니다. 내 거래 데이터에는 약 60k 이상의 관측치와 35 개의 변수가 있습니다. 다음은 대략 어떻게 보이는지에 대한 예입니다. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG …

1
임의 포리스트에서 LASSO 사용
다음 프로세스를 사용하여 임의의 포리스트를 만들고 싶습니다. 정보 획득을 사용하여 분할을 결정하는 임의의 데이터 및 기능 샘플에 트리를 구축 사전 정의 된 깊이를 초과하는 리프 노드를 종료하거나 분할하면 사전 정의 된 최소값보다 작은 리프 수가 생성됩니다. 각 트리에 클래스 레이블을 지정하는 대신 리프 노드에서 클래스 비율을 지정하십시오. 미리 정의 된 …

1
RandomForest-MDS 플롯 해석
나는 randomForest를 사용하여 8 가지 변수 (다른 신체 자세와 움직임)를 기반으로 6 가지 동물 행동 (예 : 서기, 걷기, 수영 등)을 분류했습니다. randomForest 패키지의 MDSplot 은이 출력을 제공하며 결과를 해석하는 데 문제가 있습니다. 나는 동일한 데이터에 대해 PCA를 수행했으며 PC1과 PC2의 모든 클래스 사이에서 이미 좋은 분리를 얻었지만 Dim1과 Dim2는 …

5
1 클래스 텍스트 분류는 어떻게합니까?
텍스트 분류 문제를 해결해야합니다. 웹 크롤러는 특정 도메인의 웹 페이지를 크롤링하며 각 웹 페이지에 대해 특정 클래스에만 속하는지 여부를 확인하고 싶습니다. 즉,이 클래스를 Positive 호출하면 크롤링 된 각 웹 페이지는 Positive 클래스 또는 Non-Positive 클래스에 속합니다 . Positive 클래스에 대한 대규모 교육용 웹 페이지가 이미 있습니다 . 그러나 가능한 비 …

3
신경망 숨겨진 활성화 기능의 선택
NN에서 숨겨진 레이어 활성화 기능의 선택은 사용자의 필요 에 따라 달라져야한다는 것을 다른 곳에서 읽었습니다 . 내 질문은 필요한 것이 무엇인지 어떻게 알 수 있습니까? 입력 레이어의 범위를 기준으로합니까? 예를 들어 입력 레이어의 전체 값 범위를 포괄 할 수있는 함수를 사용하거나 입력 레이어의 분포를 반영하는 기능을 사용합니까 (가우스 함수)? 또는 …

1
언밸런스 드 클래스 오버 / 언더 샘플링시 정확도를 극대화하는 것은 오 분류 비용을 최소화하는 것과 다른가?
우선, 데이터 마이닝 책에서 언밸런스 드 데이터 세트 를 처리하는 방법을 설명하는 데 사용되는 일반적인 레이아웃에 대해 설명하겠습니다 . 일반적으로 주 섹션은 언밸런스 드 데이터 셋 (Unbalanced Datasets)으로 구성되며 비용에 민감한 분류 및 샘플링 기법이라는 두 가지 하위 섹션을 포함합니다. 드문 클래스 에서 문제가 발생 하면 비용에 민감한 분류와 샘플링을 …


2
선택한 기능 수가 줄어들면 랜덤 포리스트 OOB 오류 추정치가 개선되는 이유는 무엇입니까?
1000 개의 기능을 가진 두 개의 알려진 그룹으로 분할 된 마이크로 어레이 데이터 세트에서 분류 자로 임의 포리스트 알고리즘을 적용하고 있습니다. 처음 실행 한 후에는 기능의 중요성을 살펴보고 5, 10 및 20 개의 가장 중요한 기능으로 트리 알고리즘을 다시 실행합니다. 모든 기능의 상위 10 및 20에서 오류율의 OOB 추정치는 1.19 …


1
캐럿 glmnet vs cv.glmnet
glmnetwithin caret을 사용하여 최적의 람다를 검색 cv.glmnet하고 동일한 작업을 수행하는 것을 비교하는 데 많은 혼란이있는 것 같습니다 . 다음과 같은 많은 질문이 제기되었습니다. 분류 모델 train.glmnet 대 cv.glmnet? 캐럿과 함께 glmnet을 사용하는 올바른 방법은 무엇입니까? `caret`를 사용한 교차 유효성 검사`glmnet` 그러나 질문의 ​​재현 가능성으로 인한 답변이 없습니다. 첫 번째 질문에 …

1
GAM vs LOESS vs 스플라인
컨텍스트 : 매개 변수로 표시되지 않는 산점도에 선을 그리려면에서를 사용 geom_smooth()하고 ggplot있습니다 R. 자동으로 반환 geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.내가 GAM이 일반화 된 첨가제 모델을 의미 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.