«classification» 태그된 질문

새로운 데이터 세트 인스턴스가 속하는 카테고리를 식별하는지도 학습 인스턴스입니다.

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
고정되지 않은 범주 형 데이터를 사용하여 분류를 수행하려면 어떻게해야합니까?
범주 형 데이터와 숫자 형 데이터 모두에 분류 문제가 있습니다. 내가 직면하고있는 문제는 내 범주 데이터가 고정되어 있지 않다는 것입니다. 즉, 예측하려는 레이블을 가진 새로운 후보자가 미리 관찰되지 않은 새로운 범주를 가질 수 있습니다. 예를 들어 내 범주 데이터가 있다면, sex, 유일하게 가능한 라벨이 없을 것 female, male그리고 other, 더 …

3
검증 손실 또는 정확성에 대한 조기 중단?
현재 신경망을 훈련 중이며 조기 중지 기준을 구현하는 데 사용할 유효성, 즉 유효성 검사 손실 또는 유효성 검사 세트에서 계산 된 정확도 / f1score / auc / 무엇과 같은 메트릭을 결정할 수 없습니다. 연구에서 두 가지 관점을 모두 지키는 기사를 찾았습니다. Keras는 유효성 검사 손실을 기본값으로하는 것처럼 보이지만 반대 접근법 …

3
언제 데이터 셋을 불균형으로 간주해야합니까?
데이터 세트의 긍정적 및 부정적 예의 수가 불균형 인 상황에 직면하고 있습니다. 내 질문은 데이터 집합에서 일종의 균형을 맞추기 위해 큰 범주를 하위 샘플링 해야하는시기를 알려주는 경험 법칙이 있습니까? 예 : 긍정적 인 예의 수가 1,000이고 부정적인 예의 수가 10,000이면, 전체 데이터 세트에 대한 분류기를 훈련해야합니까, 아니면 부정적인 예를 서브 …

1
R의 그래프에 대한 라이브러리 (라벨 전파 알고리즘 / 자주 그래프 마이닝)
문제에 대한 일반적인 설명 일부 정점이 3 또는 4 개의 가능한 값이있는 유형으로 레이블이 지정된 그래프가 있습니다. 다른 정점의 경우 유형을 알 수 없습니다. 내 목표는 레이블이없는 정점의 유형을 예측하기 위해 그래프를 사용하는 것입니다. 가능한 프레임 워크 나는 문학의 내 독서에 따라 라벨 전파 문제의 일반적인 프레임 워크로이 맞는 의심 …

4
여러 유형의 모델이 왜 거의 동일한 결과를 낼 수 있습니까?
~ 400k 레코드와 9 개 변수의 데이터 세트를 분석했습니다. 종속 변수는 이진입니다. 로지스틱 회귀, 회귀 트리, 임의의 숲 및 그라디언트 강화 트리를 장착했습니다. 다른 데이터 세트에서 유효성을 검사 할 때 모두 동일한 똑같은 적합도를 제공합니다. 왜 그렇습니까? 가변 비율에 대한 나의 관측치가 너무 높기 때문이라고 생각합니다. 이것이 정확하다면, 어떤 모델 …

1
영어 문장의 복잡성을 결정하는 방법?
사람들이 제 2 언어로 영어를 배우도록 돕기 위해 앱을 개발 중입니다. 추가 문맥을 제공함으로써 문장이 언어를 배우는 데 도움이된다는 것을 확인했습니다. 나는 60 명의 학생들로 구성된 작은 교실에서 작은 연구를 수행함으로써 그렇게했습니다. 다양한 영어 단어 (Barrons'800 단어 및 1000 개의 가장 일반적인 영어 단어 포함)에 대해 Wikipedia에서 수십만 문장을 채굴했습니다. …

3
최고의 통화 시간 예측
캘리포니아의 여러 도시에있는 고객 집합, 각 고객의 통화 시간 및 통화 상태 (고객이 전화에 응답하면 True, 고객이 응답하지 않으면 False)를 포함하는 데이터 집합이 있습니다. 전화를받을 확률이 높을 수 있도록 향후 고객을위한 적절한 전화 시간을 찾아야합니다. 그렇다면이 문제에 가장 적합한 전략은 무엇입니까? 시간 (0,1,2, ... 23)이 클래스 인 분류 문제로 고려해야합니까? …

2
scikit 분류 기준을 분류하는 데 시간이 얼마나 걸립니까?
1 백만 개의 레이블이 지정된 문서로 구성된 모음에서 텍스트 분류를 위해 scikit 선형 지원 벡터 머신 (SVM) 분류기를 사용할 계획입니다. 내가 할 계획은 사용자가 키워드를 입력하면 분류자가 먼저 범주별로 분류 한 다음 해당 범주 범주의 문서 내에서 후속 정보 검색 쿼리가 발생한다는 것입니다. 몇 가지 질문이 있습니다. 분류에 많은 시간이 …

1
멀티 클래스 데이터 세트에서 분류가 잘못되는 불균형 데이터
39 개의 카테고리 / 클래스와 850 만 개의 레코드가있는 텍스트 분류 작업을하고 있습니다. (향후 데이터 및 카테고리가 증가 할 것입니다). 내 데이터의 구조 또는 형식은 다음과 같습니다. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 …

1
클래스 중 하나가 다른 클래스 중 하나에 의해 정의되지 않은 분류 문제에 어떻게 접근합니까?
세 가지 수업에 관심이 있다고 가정 해 봅시다. 씨1c1c_1, 씨2c2c_2, 씨삼c3c_3. 그러나 내 데이터 세트에는 실제로 몇 가지 실제 클래스가 더 있습니다.(씨제이)엔j = 4(cj)j=4n(c_j)_{j=4}^n. 확실한 대답은 새로운 클래스를 정의하는 것입니다 씨^4c^4\hat c_4 그것은 모든 클래스를 참조 cjcjc_j, j>3j>3j>3 그러나 나는 샘플이 있기 때문에 이것이 좋은 생각이 아니라고 생각합니다. c^4c^4\hat c_4 …

4
다변량 시계열 분류
약 40 차원의 시계열 (8 점)으로 구성된 일련의 데이터가 있습니다 (따라서 각 시계열은 8 x 40입니다). 해당 출력 (범주에 가능한 결과)은 0 또는 1입니다. 여러 차원의 시계열 분류기를 설계하는 가장 좋은 방법은 무엇입니까? 저의 초기 전략은 해당 시계열에서 각 차원의 평균, 표준, 최대 변동을 추출하는 것이 었습니다. RandomTreeForest를 훈련시키는 데 …

2
벡터 서열의 분류
내 데이터 세트는 벡터 시퀀스로 구성되어 있습니다. 각 벡터의 실제 치수는 50입니다. 시퀀스의 벡터 수는 3-5 ~ 10-15입니다. 즉, 시퀀스의 길이는 고정되어 있지 않습니다. 벡터가 아닌 일부 시퀀스에 클래스 레이블이 표시됩니다. 내 임무는 벡터 시퀀스가 ​​주어지면 전체 시퀀스의 클래스 레이블이 계산되는 분류자를 배우는 것입니다. 나는 데이터의 정확한 본질을 말할 수 …

2
파이썬에서 보완적인 Naive Bayes를 구현하고 있습니까?
문제 범죄 데이터의 레이블이 지정된 데이터 세트에서 Naive 베이를 사용하려고 시도했지만 실제로는 좋지 않은 결과를 얻었습니다 (7 % 정확도). Naive Bayes는 내가 사용했던 다른 알고리즘보다 훨씬 빠르게 실행되므로 점수가 왜 그렇게 낮은 지 알아 내고 싶었습니다. 연구 읽은 후 Naive bayes는 균형 잡힌 데이터 세트와 함께 사용해야한다는 것을 알았습니다. 주파수가 …

4
텍스트 분류기 교육 데이터 세트 제안
텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까? Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에. 이 정보를 사용하여 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.