«classification» 태그된 질문

새로운 데이터 세트 인스턴스가 속하는 카테고리를 식별하는지도 학습 인스턴스입니다.

5
이진 분류 알고리즘을 선택하십시오
이진 분류 문제가 있습니다. 훈련 세트에서 약 1000 개의 샘플 이진, 숫자 및 범주를 포함한 10 가지 속성 이 유형의 문제에 가장 적합한 알고리즘은 무엇입니까? 기본적으로 나는 비교적 깨끗하고 시끄럽지 않은 데이터에 가장 적합한 것으로 간주되므로 SVM (공칭 속성 값을 이진 기능으로 변환 한 예비)으로 시작하겠습니다.

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
기계 학습에서 희소 데이터와 밀도가 높은 데이터를 병합하여 성능 향상
나는 예측 가능한 희소 특징을 가지고 있으며, 또한 예측 가능한 조밀 한 특징이 있습니다. 분류기의 전반적인 성능을 향상 시키려면 이러한 기능을 결합해야합니다. 이제는 이들을 함께 결합하려고 할 때 밀도가 높은 기능은 희소 기능보다 더 많이 지배되는 경향이 있으므로 밀도가 높은 기능이있는 모델에 비해 AUC가 1 % 향상됩니다. 누군가 비슷한 문제를 …

3
불균형하고 이질적인 부정적인 배경을 가진 일류 차별 분류?
{protein} 서열을 특정 클래스 (Neuropeptide hormone 전구체)에 속하는지 분류하기 위해 기존의 감독 된 분류기를 개선하기 위해 노력하고 있습니다. 약 1,150 만 개의 단백질 서열의 배경 ( "알려지지 않은 / 나쁜 주석이 달린 배경")에 대해 약 1,150 개의 알려진 "양성"또는 다양한 속성으로 주석이 달린 약 10 만 개의 검토 된 관련 …

6
연속 변수가 거의없는 로그 변환을 수행 한 이유는 무엇입니까?
분류 문제를 겪고 있으며 많은 사람들의 코드와 자습서를 읽었습니다. 내가 발견 한 것은 많은 사람들이 걸릴 것입니다 np.log또는 log연속 같은 변수의 loan_amount또는 applicant_income등 나는 그 이유를 이해하고 싶습니다. 모델 예측 정확도를 향상시키는 데 도움이됩니까? 필수입니까? 또는 그 뒤에 논리가 있습니까? 가능하면 설명을 제공해주세요. 감사합니다.

1
의사 결정 트리에서 연속 변수에 대해 분리 점이 어떻게 선택됩니까?
의사 결정 트리와 관련된 두 가지 질문이 있습니다. 연속 속성이있는 경우 분할 값을 어떻게 선택합니까? 예 : 나이 = (20,29,50,40 ....) R에 값 이있는 연속 속성 가 있다고 가정하십시오 . f 를 v로 나눌 때 f > v에 대한 최소 게인을 갖기 위해 분할 점 v 를 찾는 알고리즘을 어떻게 …

4
의사 결정 트리 또는 로지스틱 회귀 분석?
분류 문제를 해결하고 있습니다. 동일한 수의 범주 형 변수와 연속 변수를 포함하는 데이터 세트가 있습니다. 어떤 기술을 사용해야하는지 어떻게 알 수 있습니까? 의사 결정 트리와 로지스틱 회귀 분석 로지스틱 회귀 분석이 연속 변수에 더 적합하고 의사 결정 트리가 연속 + 범주 변수에 더 적합하다고 가정하는 것이 옳습니까?

2
속성을 사용하여 사용자 프로필 분류 / 클러스터
웹 사이트에서 제품을 구매하는 사용자 데이터가 있습니다. 내가 가진 속성은 사용자 ID, 사용자의 지역 (주), 제품 카테고리 ID, 키워드 키워드 제품, 키워드 키워드 웹 사이트 및 판매 비용입니다. 목표는 제품 및 웹 사이트의 정보를 사용하여 "남성 젊은 게이머"또는 "집에서 엄마"와 같이 사용자가 누구인지 식별하는 것입니다. 아래 그림과 같이 샘플 사진을 …

2
불균형 데이터에 대한 이진 분류 모델
다음 사양의 데이터 세트가 있습니다. 2,821 개의 양성으로 193,176 개의 샘플로 훈련 데이터 세트 673 개의 양성으로 82,887 개의 샘플로 테스트 데이터 세트 10 가지 기능이 있습니다. 이진 분류 (0 또는 1)를 수행하고 싶습니다. 내가 겪고있는 문제는 데이터가 매우 불균형하다는 것입니다. 일부 기능 엔지니어링과 함께 데이터를 정규화하고 확장 한 후 …

1
Naive Bayes 분류기 계산에서 제로 팩터를 처리하는 방법은 무엇입니까?
훈련 데이터 세트가 있고 Naive Bayes Classifier를 훈련시키고 확률 값이 0 인 속성 값을 갖는 경우. 나중에 새 데이터에 대한 분류를 예측하려면 어떻게해야합니까? 문제는 계산에 0이 있으면 다른 솔루션을 찾을 수있는 다른 값의 수에 관계없이 전체 제품이 0이된다는 것입니다. 예: P(x|spam=yes)=P(TimeZone=US|spam=yes)⋅P(GeoLocation=EU|spam=yes)⋅ ... =0.004P(x|spam=yes)=P(TimeZone=US|spam=yes)⋅P(GeoLocation=EU|spam=yes)⋅ ... =0.004P(x|spam=yes) = P(TimeZone = US | …


3
다양한 유형의 속성으로 데이터 세트를 분류하는 가장 좋은 방법
텍스트 및 숫자와 같은 혼합 유형의 속성으로 구성된 데이터 세트를 분류하는 가장 좋은 방법이 무엇인지 알고 싶습니다. 텍스트를 부울로 변환 할 수 있지만 어휘가 다양하고 데이터가 너무 희박 해집니다. 또한 속성 유형을 개별적으로 분류하고 메타 학습 기술을 통해 결과를 결합하려고 시도했지만 제대로 작동하지 않았습니다.

2
왜 우리는 데이터 불균형을 처리해야합니까?
데이터 불균형을 처리해야하는 이유 를 알아야 합니다. 업 샘플링 또는 다운 샘플링 또는 Smote를 사용하여 문제를 해결하는 방법과 다양한 방법을 알고 있습니다. 예를 들어, 100 명 중 1 %의 희귀 질환이 있고 훈련 세트에 대해 균형 잡힌 데이터 세트를 결정했다고 가정 해 보겠습니다. 50/50 샘플 기계가 환자의 50 %가 질병? …

3
분류에 RBM을 사용하는 방법은 무엇입니까?
현재 Restricted Boltzmann Machines를 사용하고 있는데 지금부터 필기 자릿수를 분류하려고합니다. 내가 만든 모델은 이제 꽤 멋진 생성 모델이지만 더 나아가는 방법을 모르겠습니다. 에서 이 문서 저자의 말은, 그건 좋은 생식 모델을 만든 후, 하나는 " 다음 차별적 분류를 기차 (즉, 선형 분류, 서포트 벡터 머신)을 RBM의 상단 라벨이 샘플 사용에 …

1
2 가지 기능과 일련의 이벤트를 기반으로 고객 분류
내가 설계하고있는 알고리즘에서 다음 단계가 무엇인지에 대한 도움이 필요합니다. NDA로 인해 많은 것을 공개 할 수는 없지만 일반적이고 이해할 수 있도록 노력할 것입니다. 기본적으로 알고리즘의 여러 단계 후에 다음과 같은 결과가 있습니다. 내가 보유한 각 고객과 한 달 동안 수행하는 이벤트에 대해 첫 번째 단계에서 이벤트를 여러 범주로 클러스터링했습니다 (각 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.