«machine-learning» 태그된 질문

기계 학습 알고리즘은 훈련 데이터의 모델을 구축합니다. "기계 학습"이라는 용어는 모호하게 정의됩니다. 여기에는 통계 학습, 강화 학습, 비지도 학습 등이 포함됩니다. 항상 더 구체적인 태그를 추가하십시오.

2
불균형 데이터 세트에 대한 교육 접근법
불균형 테스트 데이터 세트가 있습니다. 양수 세트는 100 건으로 구성되고 음수 세트는 1500 건으로 구성됩니다. 훈련 측면에는 더 큰 후보 풀이 있습니다. 긍정적 훈련 세트는 1200 건이고 부정적인 훈련 세트는 12000 건입니다. 이런 종류의 시나리오에는 몇 가지 선택이 있습니다. 1) 전체 교육 세트에 가중치 SVM 사용 (P : 1200, N …

3
k- 폴드 교차 검증에 대한 그리드 검색
10 배 교차 유효성 검사 설정에서 120 샘플의 데이터 세트가 있습니다. 현재 첫 번째 홀드 아웃의 교육 데이터를 선택하고 그리드 검색을 통해 감마 및 C의 값을 선택하기 위해 5 배 교차 검증을 수행합니다. RBF 커널과 함께 SVM을 사용하고 있습니다. 정밀도를보고하기 위해 10 개의 교차 검증을 수행하고 있으므로 각 홀드 아웃의 …

2
GBM 분류에 불균형 한 수업 규모가 있습니까?
감독 이진 분류 문제를 처리하고 있습니다. GBM 패키지를 사용하여 개인을 감염되지 않은 / 감염된 것으로 분류하고 싶습니다. 감염된 사람보다 15 배나 더 감염되지 않았습니다. 클래스 크기가 불균형 한 경우 GBM 모델이 어려움을 겪고 있는지 궁금합니다. 이 질문에 대한 답변이 없습니다. 감염되지 않은 개인에게 1의 무게를, 감염된 사람에 15의 무게를 할당하여 …

3
멀티 클래스 LDA 교육의 공선 변수
8 클래스 의 데이터 로 다중 클래스 LDA 분류기를 훈련하고 있습니다. 교육을 수행하는 동안 " 변수는 동일 선상에 있습니다 " 라는 경고가 표시됩니다. 90 % 이상의 훈련 정확도를 얻고 있습니다. Python 에서 scikits-learn 라이브러리를 사용 하여 다중 클래스 데이터를 훈련시키고 테스트합니다. 나는 적절한 테스트 정확도도 얻 습니다 (약 85 % …

6
가장 빠른 SVM 구현
더 일반적인 질문입니다. 예측 모델링을 위해 rbf SVM을 실행하고 있습니다. 현재 프로그램에 약간의 속도 향상이 필요하다고 생각합니다. 나는 scikit learn을 거친 그리드 검색 + 교차 유효성 검사와 함께 사용합니다. 각 SVM 실행에는 약 1 분이 걸리지 만 모든 반복 작업으로 인해 여전히 너무 느립니다. 결국 여러 코어에서 교차 유효성 검사 …

2
로지스틱 회귀 설정에서 제곱 손실을 사용하면 어떻게됩니까?
장난감 데이터 세트에서 이진 분류를 수행하기 위해 제곱 손실을 사용하려고합니다. mtcars데이터 세트를 사용하고 있으며 갤런 당 마일과 무게를 사용 하여 전송 유형을 예측합니다. 아래 그림은 서로 다른 색상의 두 가지 유형의 전송 유형 데이터와 서로 다른 손실 함수로 생성 된 결정 경계를 보여줍니다. 제곱 손실은 여기서 는 기본 진리 레이블 …

1
확률 밀도 함수의 변수 변화의 유도?
책 패턴 인식 및 기계 학습 (공식 1.27)에서 피와이( y) = p엑스( x ) ∣∣∣디엑스디와이∣∣∣= p엑스( g( y) ) | 지'( y) |피와이(와이)=피엑스(엑스)|디엑스디와이|=피엑스(지(와이))|지'(와이)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | 여기서 , 는 변수의 변경과 관련하여 해당하는 pdf입니다 .x = g( y)엑스=지(와이)x=g(y)피엑스( x )피엑스(엑스)p_x(x)피와이( y)피와이(와이)p_y(y) 이 책은 …

1
통계 학습 이론에서 테스트 세트에 과적 합의 문제가 있습니까?
MNIST 데이터 세트 분류에 대한 문제점을 고려해 봅시다. Yann LeCun의 MNIST 웹 페이지 에 따르면 'Ciresan et al.' Convolutional Neural Network를 사용하여 MNIST 테스트 세트에서 0.23 % 오류율을 얻었습니다. MNIST 교육 세트를 , MNIST 테스트 세트를 , 을 로 사용하여 얻은 최종 가설 및 을 사용하여 MNIST 테스트 세트에 대한 …

3
온라인 학습과 배치 학습의 차이점은 무엇입니까?
현재 John Duchi와 Yoram Singer의 Forward-Backward Splitting 을 사용한 Efficient Online and Batch Learning 논문을 읽었습니다 . '온라인'과 '배치'라는 용어의 사용법에 대해 매우 혼란스러워합니다. '온라인'은 훈련 데이터의 한 단위를 처리 한 후 가중치 매개 변수를 업데이트하는 것을 의미한다고 생각했습니다. 그런 다음 새로운 가중치 매개 변수를 사용하여 다음 훈련 데이터 단위를 …

5
교육 데이터를 늘리면 전체 시스템 정확도에 어떤 영향이 있습니까?
어떤 상황에서 훈련 데이터를 늘리면 전체 시스템이 향상 될 수 있는지 예를 들어 누군가를 요약 해 줄 수 있습니까? 더 많은 훈련 데이터를 추가하면 데이터가 과적 합 될 수 있고 테스트 데이터에 대한 정확도가 높지 않다는 것을 언제 감지 할 수 있습니까? 이것은 매우 구체적이지 않은 질문이지만 특정 상황에 대한 …

1
lmer 모델에 사용할 다중 비교 방법 : lsmeans 또는 glht?
하나의 고정 효과 (조건)와 두 개의 임의 효과 (대상 내 설계 및 쌍으로 인해 참가자)가있는 혼합 효과 모델을 사용하여 데이터 세트를 분석하고 있습니다. lme4패키지로 모델이 생성되었습니다 exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). 다음으로, 고정 효과 (조건)없이 모형에 대해이 모형의 우도 비 검정을 수행했으며 유의 한 차이가 있습니다. 내 데이터 세트에는 3 가지 조건이 있으므로 다중 …


1
분류기 대 모델 대 추정기
분류기, 모델 및 추정기의 차이점은 무엇입니까? 내가 말할 수있는 것에서 : 추정기는 회귀 알고리즘에서 찾은 예측 변수입니다. 분류기는 분류 알고리즘에서 찾은 예측 변수입니다. 모델은 추정자 또는 분류 자일 수 있습니다. 그러나 온라인에서 볼 때 이러한 정의가 섞여있을 수 있습니다. 그렇다면 기계 학습과 관련하여 진정한 정의는 무엇입니까?


3
작은 유효성 검사 세트를 사용할 수 있습니까?
데이터를 테스트 세트와 검증 세트로 나누는 이유를 이해합니다. 또한 분할 규모는 상황에 따라 다르지만 일반적으로 50/50에서 90/10까지 다양합니다. 철자를 수정하고 ~ 5m 문장의 데이터 세트로 시작하기 위해 RNN을 만들었습니다. 나는 500k 문장을 깎고 나머지 ~ 4.5m 문장으로 훈련합니다. 훈련이 끝나면 검증 세트를 가져와 정확도를 계산합니다. 흥미로운 점은 유효성 검사 세트의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.