«classification» 태그된 질문

새로운 데이터 세트 인스턴스가 속하는 카테고리를 식별하는지도 학습 인스턴스입니다.


6
거리 메트릭으로서 코사인 유사성 대 도트 곱
두 피처의 코사인 유사성은 크기의 곱으로 스케일 된 점의 곱인 것 같습니다. 코사인 유사성이 언제 내적보다 더 나은 거리 측정법을 만드는가? 즉, 내적 곱과 코사인 유사성이 상황에 따라 다른 강점 또는 약점을 갖습니까?


5
딥 러닝 vs 그라디언트 부스팅 : 언제 무엇을 사용해야합니까?
큰 데이터 세트에 큰 데이터 문제가 있습니다 (예 : 5 천만 행 및 200 열 사용). 데이터 집합은 약 100 개의 숫자 열과 100 개의 범주 열 및 이진 클래스 문제를 나타내는 응답 열로 구성됩니다. 각 범주 열의 카디널리티는 50보다 작습니다. 딥 러닝 방법 또는 앙상블 트리 기반 방법 (예 …

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
불균형이 높은 데이터 세트 교육에 대한 빠른 안내
훈련 세트에서 약 1000 개의 양성 및 10000 개의 음성 샘플로 분류 문제가 있습니다. 따라서이 데이터 세트는 상당히 불균형합니다. 일반 임의 포리스트는 모든 테스트 샘플을 대다수 클래스로 표시하려고합니다. 서브 샘플링 및 가중 임의 숲에 대한 좋은 답변은 여기에 주어집니다 : 높은 바이어스 데이터 세트와 나무 앙상블 훈련의 의미는 무엇인가? RF …

4
SVM을 통해 랜덤 포레스트를 사용하는 경우와 그 반대의 경우는 언제입니까?
때 하나 사용하는 것이 Random Forest이상 SVM반대와 반대? 나는 cross-validation모델 비교가 모델 선택의 중요한 측면 이라는 것을 이해 하지만 여기서는 두 가지 방법의 경험 법칙과 경험적 규칙에 대해 더 배우고 싶습니다. 누군가 분류기의 미묘함, 강점 및 약점뿐만 아니라 각각에 가장 적합한 문제를 설명해 주시겠습니까?

4
이력서 데이터를 기반으로 작업 분류를 수행하려면 어떤 알고리즘을 사용해야합니까?
R에서 모든 일을하고 있습니다. 문제는 다음과 같습니다. 기본적으로 이력서 (CV) 목록이 있습니다. 일부 응시자는 이전에 업무 경험이 있고 일부는 그렇지 않습니다. 여기서 목표는 이력서의 텍스트를 기반으로 다른 작업 부문으로 분류하고 싶습니다. 나는 지원자가 경험이없는 학생 / 학생 인 경우에 특히 관심이 있으며, 졸업 후이 지원자가 속하는 직업 분야를 분류하기 위해 …

4
keras 모델의 정확도, F1, 정밀도 및 리콜을 얻는 방법?
바이너리 KerasClassifier 모델의 정밀도, 리콜 및 F1- 점수를 계산하고 싶지만 해결책을 찾지 못했습니다. 내 실제 코드는 다음과 같습니다. # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # …

5
의사 결정 트리 알고리즘이 선형 또는 비선형입니까?
최근 내 친구가 인터뷰에서 의사 결정 트리 알고리즘이 선형 또는 비선형 알고리즘인지 물었습니다. 이 질문에 대한 답을 찾으려고했지만 만족스러운 설명을 찾지 못했습니다. 누구 든지이 질문에 대한 해결책에 대답하고 설명 할 수 있습니까? 또한 비선형 기계 학습 알고리즘의 다른 예는 무엇입니까?



2
텍스트 분류 : 다른 종류의 기능 결합
내가 다루는 문제는 짧은 텍스트를 여러 클래스로 분류하는 것입니다. 내 현재 접근 방식은 tf-idf 가중 항 주파수를 사용하고 간단한 선형 분류기 (로지스틱 회귀)를 배우는 것입니다. 이것은 합리적으로 잘 작동합니다 (테스트 세트에서 약 90 % 매크로 F-1, 훈련 세트에서 거의 100 %). 큰 문제는 보이지 않는 단어 / n- 그램입니다. 분포 …

4
유클리드 거리와 반대로 맨해튼 거리를 언제 사용합니까?
기계 학습에서 유클리드 거리 에서 맨해튼 거리 를 사용하는 이유에 대한 좋은 논쟁을 찾고 있습니다. 내가 지금까지 좋은 논증을 찾은 가장 가까운 것은 이 MIT 강의 입니다. 36시 15 분에 슬라이드에서 다음 내용을 볼 수 있습니다. "일반적으로 유클리드 메트릭을 사용 합니다. 다른 차원을 비교할 수없는 경우 Manhattan이 적합 할 수 …

2
분류기의 정확도를 높이는 방법?
임의의 나무와 다른 분류자를 실험하기 위해 OpenCV letter_recog.cpp 예제를 사용하고 있습니다. 이 예제에는 랜덤 트리, 부스팅, MLP, kNN, 순진한 베이 즈 및 SVM의 6 가지 분류 기가 구현되어 있습니다. 20000 개의 인스턴스와 16 개의 기능이 포함 된 UCI 문자 인식 데이터 세트가 사용되며 교육 및 테스트를 위해 절반으로 나눕니다. SVM에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.