«machine-learning» 태그된 질문

기계 학습 알고리즘은 훈련 데이터의 모델을 구축합니다. "기계 학습"이라는 용어는 모호하게 정의됩니다. 여기에는 통계 학습, 강화 학습, 비지도 학습 등이 포함됩니다. 항상 더 구체적인 태그를 추가하십시오.

5
R에서 랜덤 포레스트로 분류하는 경우, 불균형 클래스 크기를 어떻게 조정해야합니까?
현재 작업중 인 프로젝트에 대해 다른 분류 방법을 탐색 중이며 랜덤 포레스트 시도에 관심이 있습니다. 나는 갈수록 나 자신을 교육하려고 노력하고 있으며 CV 커뮤니티가 제공하는 도움에 감사하겠습니다. 데이터를 훈련 / 테스트 세트로 나누었습니다. R에서 random forest를 사용한 실험 (randomForest 패키지 사용)에서 나는 작은 클래스에 대해 높은 분류 오류로 어려움을 겪고 …

2
출력이 여러 개인 랜덤 포레스트가 가능 / 실용적입니까?
랜덤 포레스트 (RF)는 경쟁적인 데이터 모델링 / 마이닝 방법입니다. RF 모델에는 출력 / 예측 변수라는 하나의 출력이 있습니다. RF를 사용하여 여러 출력을 모델링하는 순진한 접근 방식은 각 출력 변수에 대해 RF를 구성하는 것입니다. 따라서 우리는 N 개의 독립적 인 모델을 가지고 있으며, 출력 변수 사이에 상관 관계가있는 경우 중복 / …

3
불균형 데이터 셋의 ROC vs 정밀 리콜 곡선
방금 이 토론을 읽었습니다 . 그들은 PR AUC가 불균형 데이터 세트에서 ROC AUC보다 낫다고 주장합니다. 예를 들어 테스트 데이터 세트에 10 개의 샘플이 있습니다. 9 개의 샘플은 양수이고 1은 음수입니다. 모든 것을 긍정적으로 예측하는 끔찍한 모델이 있습니다. 따라서 TP = 9, FP = 1, TN = 0, FN = 0이라는 …

4
음의 코사인 유사성 해석
내 질문은 어리석은 질문 일 수 있습니다. 그래서 미리 사과하겠습니다. Stanford NLP 그룹에 의해 사전 훈련 된 GLOVE 모델을 사용하려고했습니다 ( link ). 그러나 유사성 결과에 약간의 음수가 있음을 알았습니다. 즉각 단어 벡터 데이터 파일을 보라는 메시지가 나타납니다. 분명히, 단어 벡터의 값은 음수가 될 수있었습니다. 그것이 왜 코사인의 음의 유사성을 …





5
앙상블 방법은 모든 구성 요소를 어떻게 능가합니까?
나는 앙상블 학습에 대해 약간 혼란스러워합니다. 간단히 말해서, k 모델을 실행하고 이러한 k 모델의 평균을 얻습니다. k 모델의 평균이 다른 모델보다 우수하다는 것을 어떻게 보장 할 수 있습니까? 편견이 "확산"또는 "평균화"되었음을 이해합니다. 그러나 앙상블에 두 개의 모델 (예 : k = 2)이 있고 그 중 하나가 다른 것보다 나쁘면 앙상블이 …

1
어떤 인과성 이론을 알아야합니까?
응용 통계 학자 / 경제학자로 인과 관계에 대한 이론적 접근법은 무엇입니까? 나는 (아주 조금) 알고있다 Neyman-Rubin 인과 모델 (및 Roy , Haavelmo 등) 인과 관계에 대한 진주의 연구 Granger Causality (처리 지향적이지는 않지만) 어떤 개념을 놓치거나 알고 있어야합니까? 관련 : 머신 러닝에서 인과 관계의 기초가되는 이론은 무엇입니까? 나는이 흥미로운 질문들과 …

1
컨볼 루션 뉴럴 네트워크의 기능 맵 수
컨볼 루션 신경망을 배울 때 다음 그림에 관한 질문이 있습니다. 1) 레이어 1의 C1에는 6 개의 기능 맵이 있습니다. 6 개의 컨볼 루션 커널이 있습니까? 각 컨볼 루션 커널은 입력을 기반으로 기능 맵을 생성하는 데 사용됩니다. 2) 레이어 2의 S1에는 6 개의 기능 맵이 있고 C2에는 16 개의 기능 맵이 …

2
탐색 적 데이터 분석을 수행하여 적절한 머신 러닝 알고리즘을 선택하는 방법
우리는 기계 학습 : 확률 적 관점 (Kevin Murphy)을 통해 기계 학습을 공부하고 있습니다. 텍스트는 각 알고리즘의 이론적 기초를 설명하지만 어떤 경우에 어떤 알고리즘이 더 낫다는 것을 거의 말하지 않으며, 어떤 알고리즘이 더 나은지에 대해서는 말하지 않습니다. 예를 들어, 커널을 선택하기 위해 데이터의 복잡성을 측정하기 위해 탐색 적 데이터 분석을 …

3
불균형 데이터의 경우 ROC 곡선 아래 영역 또는 PR 곡선 아래 영역?
사용할 성능 측정, ROC 곡선 아래 영역 (FPR의 함수로서 TPR) 또는 정밀 회수 곡선 아래 영역 (리콜 함수로서의 정밀도)에 대해 의문이 있습니다. 내 데이터가 불균형합니다. 즉, 부정적인 인스턴스의 수가 긍정적 인 인스턴스보다 훨씬 많습니다. weka의 출력 예측을 사용하고 있으며 샘플은 다음과 같습니다. inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 …


2
일류 SVM과 모범 SVM
나는 부정적인 데이터가 없다는 것을 염두에두고 단일 클래스 SVM (OSVM)이 제안되었고, 그들은 긍정적 세트와 부정적인 앵커 포인트를 분리하는 결정 경계를 찾으려고 노력한다는 것을 이해합니다. 2011 년의 연구는 OSVM과는 다른 "범주 별 분류기"를 훈련시키는 ESVM ( Exemplar SVM )을 제안 합니다. 계산 " 이것이 의미하는 바와 ESVM이 OSVM과 어떻게 다른지 잘 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.