«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.


8
테스트 데이터가 교육 데이터로 누출되지 않도록하려면 어떻게해야합니까?
예측 모델을 구축하는 사람이 있지만 적절한 통계 또는 기계 학습 원칙에 정통한 사람이 아니라고 가정합니다. 어쩌면 우리는 그 사람이 배우면서 도움을 줄 수도 있고, 또는 그 사람이 최소한의 지식이 필요한 소프트웨어 패키지를 사용하고있을 수도 있습니다. 이제이 사람은 실제 테스트가 샘플 외부 데이터 의 정확도 (또는 다른 메트릭)에서 온 것임을 잘 …

6
R에서 로지스틱 회귀에 대한 대안
로지스틱 회귀와 동일한 작업을 수행하는 많은 알고리즘을 원합니다. 그것은 설명 변수 (X)가있는 이진 반응 (Y)에 대한 예측을 제공 할 수있는 알고리즘 / 모델입니다. 알고리즘 이름을 지정한 후에 R에서 알고리즘을 구현하는 방법을 보여 주면 기쁠 것입니다. 다른 모델로 업데이트 할 수있는 코드는 다음과 같습니다. set.seed(55) n <- 100 x <- c(rnorm(n), …

6
강하게 불균형이있는 이진 분류
(기능, 이진 출력 0 또는 1) 형식의 데이터 세트가 있지만 1은 거의 발생하지 않으므로 항상 0을 예측하면 70 %에서 90 % 사이의 정확도를 얻습니다 (내가 보는 특정 데이터에 따라 다름) ). ML 방법은 동일한 정확도를 제공하며,이 상황에서 적용 할 표준 방법이 있어야 분명한 예측 규칙보다 정확도를 향상시킬 수 있다고 생각합니다.

5
기계 학습에서 불균형 데이터가 실제로 문제가되는시기는 언제입니까?
로지스틱 회귀 , SVM , 의사 결정 트리 , 배깅 및 기타 여러 가지 유사한 질문을 사용할 때 불균형 데이터에 대한 여러 가지 질문이 이미있었습니다 . 불행히도, 각 질문은 알고리즘에 특정한 것으로 보이며 불균형 데이터를 다루는 일반적인 지침을 찾지 못했습니다. Marc Claesen의 답변 중 하나를 인용 하여 불균형 데이터 처리 …



4
분류 확률 임계 값
일반적으로 분류에 관한 질문이 있습니다. f는 일부 데이터 D가 주어진 확률 세트를 출력하는 분류기 (classifier)라고하자. 일반적으로 P (c | D)> 0.5이면 클래스 1을 할당하고 그렇지 않으면 0을 할당한다. 분류). 내 질문은, 내가 알면, 확률을 1로 분류하면 확률이 0.2보다 클 때 분류 기가 더 잘 수행된다는 것입니다. 분류를 수행 할 때이 …



2
임의의 숲 가정
나는 임의의 숲에 익숙하지 않아서 여전히 몇 가지 기본 개념으로 어려움을 겪고 있습니다. 선형 회귀 분석에서 우리는 독립적 인 관찰, 일정한 분산을 가정합니다… 랜덤 포레스트를 사용할 때 우리가 만드는 기본 가정 / 가설은 무엇입니까? 모델 가정 측면에서 임의의 포리스트와 순진 베이 사이의 주요 차이점은 무엇입니까?

6
시계열 분류 기능
가변 길이 시계열 을 기반으로 한 (멀티 클래스) 분류 의 문제 , 즉 함수 , 와 독립적으로 고정 된 크기 의 선택된 피처 세트로 시간 세리의 전역 표현을 통해 를 입력 한 다음이 기능 세트에 표준 분류 방법을 사용하십시오. 난 있지 , 예측에 관심이있는, 즉 예측TTTf(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with …

4
불균형 데이터에 대한 의사 결정 트리 교육
데이터 마이닝을 처음 사용하고 있으며 불균형이 심한 데이터 세트에 대해 의사 결정 트리를 훈련하려고합니다. 그러나 예측 정확도가 좋지 않습니다. 데이터는 코스를 공부하는 학생들로 구성되며 클래스 변수는 취소됨 또는 현재의 두 값을 갖는 코스 상태입니다. 나이 민족 성별 코스 ... 코스 상태 데이터 세트에는 Withdrawn보다 Current 인 인스턴스가 더 많습니다. 철회 …

6
다운 샘플링하는 이유
이메일이 스팸인지 예측하는 분류기를 배우고 싶다고 가정 해보십시오. 그리고 이메일의 1 %만이 스팸이라고 가정합니다. 가장 쉬운 방법은 스팸 이메일이 없다는 간단한 분류기를 배우는 것입니다. 이 분류기는 99 %의 정확도를 제공하지만 흥미로운 것은 배우지 않으며 100 %의 잘못된 부정 비율을 갖습니다. 이 문제를 해결하기 위해 사람들은 "다운 샘플링"하거나 예제의 50 %가 …

9
F- 측정 값을 해석하는 방법?
f- 측정 값의 차이를 해석하는 방법을 알고 싶습니다. 나는 f- 측정이 정밀도와 리콜 사이의 균형 잡힌 평균이라는 것을 알고 있지만 F- 측정 차이의 실질적인 의미에 대해 묻고 있습니다. 예를 들어 분류기 C1의 정확도가 0.4이고 다른 분류기 C2의 정확도가 0.8 인 경우 C2가 C1과 비교하여 두 가지 테스트 예를 올바르게 분류했다고 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.