«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

3
t- 검정으로 통계적 유의성을 위해 두 분류기 정확도 결과 비교
통계적으로 유의미한 두 분류기의 정확도를 비교하고 싶습니다. 두 분류기는 모두 동일한 데이터 세트에서 실행됩니다. 이것은 내가 읽은 것에서 하나의 샘플 t- 검정을 사용해야한다고 생각하게합니다 . 예를 들면 다음과 같습니다. Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 이것이 올바른 테스트입니까? 그렇다면 분류기 간의 정확도 차이가 중요한지 어떻게 …


2
그라디언트 부스팅을 사용한 분류 : [0,1]의 예측 유지 방법
질문 그라디언트 부스팅을 사용하여 이진 분류를 수행 할 때 예측이 간격 내에 유지되는 방식을 이해하기 위해 고심 하고 있습니다.[0,1][0,1][0,1] 이진 분류 문제에 대해 작업 목적 함수가 로그 손실 . 여기서 대상 변수 이고 는 현재 모델입니다.y ∈ { 0 , 1 } H−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))yyy∈{0,1}∈{0,1}\in \{0,1\}HHH 우리의 …


1
AUC가 준 적절한 득점 규칙이라는 것은 무엇을 의미합니까?
적절한 점수 규칙은 '진정한'모델에 의해 극대화되는 규칙이며 시스템을 '헤지'하거나 게임을 할 수 없습니다 (점수를 향상시키기 위해 모델의 진정한 신념에 따라 다른 결과를 의도적으로보고 함). 브리 어 점수는 적절하고 정확성 (비율이 올바르게 분류 됨)이 부적절하며 종종 낙담합니다. 때로는 AUC가 준 정확한 스코어링 규칙이라고 불리는데, 이는 정확성으로 완벽하지는 않지만 적절한 규칙보다 덜 …

3
회귀 분석에서 귀무 모델은 무엇이며 귀무 가설과 어떤 관련이 있습니까?
회귀 분석에서 귀무 모델은 무엇이며 귀무 모델과 귀무 가설 사이의 관계는 무엇입니까? 내 이해를 위해, 그것은 의미 하는가 연속 반응 변수를 예측하기 위해 "응답 변수의 평균"을 사용 하는가? 이산 반응 변수를 예측할 때 "라벨 분포"를 사용하십니까? 이 경우 귀무 가설간에 연결이 누락 된 것 같습니다.

2
'69 년의 데이터를 통한 일반적인 학습의 최첨단
1969 년부터 유명한 Minsky and Papert 저서 "Perceptrons"의 맥락을 이해하려고 노력하고 있는데, 이는 신경망에 매우 중요합니다. 내가 아는 한, 퍼셉트론을 제외한 다른 일반적인 감독 학습 알고리즘은 없었습니다. 의사 결정 트리는 실제로 70 년대 후반에만 실제로 유용 해지기 시작했으며, 임의의 포리스트와 SVM은 90 년대입니다. jackknife 방법은 이미 알려져 있지만 k-cross validation …

1
이미지에서 픽셀을 분류하기위한 기본 Markov Random Field 교육
Markov Random Fields를 사용하여 이미지의 영역을 분할하는 방법을 배우려고합니다. MRF의 일부 매개 변수를 이해하지 못하거나 수행하는 기대 최대화가 때때로 솔루션에 수렴하지 못하는 이유를 이해하지 못합니다. 베이 즈 정리에서 시작하여 . 여기서 y 는 픽셀의 회색조 값이고 x 는 클래스 레이블입니다. p ( y | x )에 대해 Gaussian 분포를 사용하기로 …

2
불균형 데이터 세트에 대한 교육 접근법
불균형 테스트 데이터 세트가 있습니다. 양수 세트는 100 건으로 구성되고 음수 세트는 1500 건으로 구성됩니다. 훈련 측면에는 더 큰 후보 풀이 있습니다. 긍정적 훈련 세트는 1200 건이고 부정적인 훈련 세트는 12000 건입니다. 이런 종류의 시나리오에는 몇 가지 선택이 있습니다. 1) 전체 교육 세트에 가중치 SVM 사용 (P : 1200, N …

4
낮은 분류 정확도, 다음에 수행 할 작업
그래서 저는 ML 분야의 초보자이며 분류를하려고합니다. 내 목표는 스포츠 이벤트의 결과를 예측하는 것입니다. 나는 몇 가지 역사적 데이터를 수집했으며 이제 분류기를 훈련하려고합니다. 나는 약 1200 개의 샘플을 얻었고, 그중 0.2 개는 테스트 목적으로 분리되었으며 다른 샘플은 다른 분류 기준으로 그리드 검색에 포함되었습니다 (교차 유효성 검사 포함). 나는 선형, rbf 및 …

3
k- 폴드 교차 검증에 대한 그리드 검색
10 배 교차 유효성 검사 설정에서 120 샘플의 데이터 세트가 있습니다. 현재 첫 번째 홀드 아웃의 교육 데이터를 선택하고 그리드 검색을 통해 감마 및 C의 값을 선택하기 위해 5 배 교차 검증을 수행합니다. RBF 커널과 함께 SVM을 사용하고 있습니다. 정밀도를보고하기 위해 10 개의 교차 검증을 수행하고 있으므로 각 홀드 아웃의 …

3
멀티 클래스 LDA 교육의 공선 변수
8 클래스 의 데이터 로 다중 클래스 LDA 분류기를 훈련하고 있습니다. 교육을 수행하는 동안 " 변수는 동일 선상에 있습니다 " 라는 경고가 표시됩니다. 90 % 이상의 훈련 정확도를 얻고 있습니다. Python 에서 scikits-learn 라이브러리를 사용 하여 다중 클래스 데이터를 훈련시키고 테스트합니다. 나는 적절한 테스트 정확도도 얻 습니다 (약 85 % …

1
통계 학습 이론에서 테스트 세트에 과적 합의 문제가 있습니까?
MNIST 데이터 세트 분류에 대한 문제점을 고려해 봅시다. Yann LeCun의 MNIST 웹 페이지 에 따르면 'Ciresan et al.' Convolutional Neural Network를 사용하여 MNIST 테스트 세트에서 0.23 % 오류율을 얻었습니다. MNIST 교육 세트를 , MNIST 테스트 세트를 , 을 로 사용하여 얻은 최종 가설 및 을 사용하여 MNIST 테스트 세트에 대한 …

5
교육 데이터를 늘리면 전체 시스템 정확도에 어떤 영향이 있습니까?
어떤 상황에서 훈련 데이터를 늘리면 전체 시스템이 향상 될 수 있는지 예를 들어 누군가를 요약 해 줄 수 있습니까? 더 많은 훈련 데이터를 추가하면 데이터가 과적 합 될 수 있고 테스트 데이터에 대한 정확도가 높지 않다는 것을 언제 감지 할 수 있습니까? 이것은 매우 구체적이지 않은 질문이지만 특정 상황에 대한 …

3
불균형이 심한 환경에서 비용에 민감한 학습을위한 제안
몇 백만 행과 ~ 100 열의 데이터 집합이 있습니다. 공통 클래스에 속하는 데이터 세트의 예제 중 약 1 %를 감지하고 싶습니다. 최소 정밀도 제약이 있지만 매우 비대칭 적 인 비용으로 인해 특정 리콜에 너무 열중하지 않습니다 (10 개의 긍정적 인 일치가 남지 않는 한)! 이 설정에서 권장 할 몇 가지 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.