«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.


4
K- 폴드 교차 검증에서 K의 선택
일부 학습 알고리즘의 성능을 평가하기 위해 폴드 교차 검증을 몇 번 사용했지만 항상 값을 선택하는 방법에 대해 의아해했습니다 .KKKKKKK 나는 종종 값을 보았고 사용 했지만 이것은 완전히 임의적 인 것처럼 보이며 이제는 생각하지 않고 습관으로 을 사용 합니다. 나에게 의 가치를 높이면 더 세분화 된 것처럼 보이므로 이상적으로는 크게 해야 …

4
일반 영어 코헨의 카파
데이터 마이닝 책을 읽고 있으며 분류기의 예측 성능을 평가하는 수단으로 Kappa 통계를 언급했습니다. 그러나 나는 이것을 이해할 수 없다. 또한 Wikipedia도 확인했지만 도움이되지 않았습니다 : https://en.wikipedia.org/wiki/Cohen's_kappa . Cohen의 카파는 분류기의 예측 성능을 평가하는 데 어떻게 도움이됩니까? 그것은 무엇을 말합니까? 100 % kappa는 분류 기가 임의 분류기와 완전히 일치 함을 의미하지만 …


7
분류 모델을 평가할 때 정확도가 가장 좋은 측정 방법이 아닌 이유는 무엇입니까?
이것은 여기서 여러 번 간접적으로 묻는 일반적인 질문이지만 단일 정식 답변이 없습니다. 참조를 위해 이에 대한 자세한 답변을 얻는 것이 좋습니다. 모든 분류 중에서 올바른 분류의 비율 인 정확도 는 매우 간단하고 매우 "직관적 인"측정이지만 불균형 데이터에 대한 측정 은 좋지 않을 수 있습니다 . 왜 직관이 우리를 잘못 인도하고이 …

3
혼동 행렬을 사용하여 멀티 클래스 분류의 정밀도를 계산하고 리콜하는 방법은 무엇입니까?
멀티 클래스 분류 문제에 대해 혼동 행렬을 사용하여 정밀도를 계산하고 호출하는 방법이 궁금합니다. 특히 관측치는 가장 가능성있는 클래스 / 라벨에만 할당 할 수 있습니다. 나는 계산하고 싶다 : 정밀도 = TP / (TP + FP) 리콜 = TP / (TP + FN) 각 클래스에 대해 마이크로 평균 F 측정을 계산합니다.

5
수동으로 곡선 아래 면적 (AUC) 또는 c- 통계량을 계산하는 방법
이진 로지스틱 회귀 모델의 수작업으로 곡선 아래 면적 (AUC) 또는 c- 통계량을 계산하는 데 관심이 있습니다. 예를 들어, 유효성 검사 데이터 집합에서 종속 변수에 대한 실제 값, 보존 (1 = 유지; 0 = 유지되지 않음)은 다음과 같은 모형을 사용하여 회귀 분석에 의해 생성 된 각 관측치의 예측 보존 상태를 갖습니다. …

3
k- 평균 군집 분석 결과의 예쁜 플롯을 생성하는 방법은 무엇입니까?
K- 평균 군집화를 위해 R을 사용하고 있습니다. K- 평균을 실행하기 위해 14 개의 변수를 사용하고 있습니다 K- 평균의 결과를 나타내는 가장 좋은 방법은 무엇입니까? 기존 구현이 있습니까? 14 개의 변수가 있으면 결과를 작성하는 것이 복잡합니까? 멋져 보이는 GGcluster라는 것을 발견했지만 여전히 개발 중입니다. 나는 또한 sammon 매핑에 대해 읽었지만 그것을 …

1
Support Vector Machines 이해를 도와주세요
Support Vector Machines의 목표가 입력 집합을 여러 클래스로 분류한다는 점의 기본 사항을 이해하지만 이해하지 못하는 것은 몇 가지 중요한 세부 사항입니다. 우선, Slack Variables를 사용하면 약간 혼란 스럽습니다. 그들의 목적은 무엇입니까? 신발 깔창에 놓은 센서에서 압력 측정 값을 캡처하는 분류 문제를 겪고 있습니다. 압력 데이터가 기록되는 동안 피험자는 몇 분 …

6
머신 러닝에서 교차 검증을 수행 할 때 "최종"모델을위한 기능 선택
기능 선택 및 기계 학습에 대해 약간 혼란스러워하며 도움이되는지 궁금합니다. 두 그룹으로 분류되고 1000 개의 기능을 가진 마이크로 어레이 데이터 세트가 있습니다. 내 목표는 이론적으로 다른 데이터 세트에 적용하여 해당 샘플을 최적으로 분류 할 수있는 서명으로 소수의 유전자 (내 특징) (10-20)를 얻는 것입니다. 샘플 수가 많지 않기 때문에 (<100), 테스트 …


3
간행물에 임의의 포리스트를 표시하는 가장 좋은 방법은 무엇입니까?
1000 개의 기능을 갖춘 마이크로 어레이 연구에서 랜덤 포레스트 알고리즘을 두 그룹의 강력한 분류 자로 사용하고 있습니다. 논문에서 재현 할 수 있도록 충분한 정보가있을 수 있도록 임의의 숲을 제시하는 가장 좋은 방법은 무엇입니까? 피처 수가 적을 경우 실제로 트리를 그리는 플롯 방법이 있습니까? 오류율의 OOB 추정치는 인용하기 가장 좋은 통계입니까?

4
신경망이 더 깊어 지지만 더 넓어지지 않는 이유
최근 몇 년 동안 4 개의 공간 에서 최첨단 네트워크가 7 층 ( AlexNet )에서 1000 층 ( 잔여 그물) 으로 이동하면서 회선 신경 네트워크 (또는 일반적으로 깊은 신경 네트워크)가 점점 더 깊어 졌습니다. 연령. 더 깊은 네트워크에서 성능이 향상되는 이유는 더 복잡한 비선형 기능을 배울 수 있기 때문입니다. 충분한 …



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.