데이터 과학 classification

3

구조화되지 않은 텍스트 문서, 즉 구조가 알려지지 않은 웹 사이트를 분류하려고합니다. 내가 분류하고있는 수업의 수는 제한되어 있습니다 (이 시점에서는 3 명 이하라고 생각합니다). 누구든지 내가 어떻게 시작할 수 있는지 제안 했습니까? 여기서 "단어"접근이 가능한가? 나중에 문서 구조 (아마도 의사 결정 트리)를 기반으로 다른 분류 단계를 추가 할 수 있습니다. Mahout과 …

12 machine-learning classification text-mining beginner

2

이모티콘에 대한 감정 데이터

실험을 위해 우리는 사용하고 싶은 이모티콘 많은 지상 사실로 트윗 / 단순 양적 senitment 분석을 위해 데이터를 교육에 포함합니다. 트윗은 일반적으로 NLP가 제대로 작동하기에는 너무 구조화되어 있지 않습니다. 어쨌든 유니 코드 6.0에는 722 개의 이모지가 있으며, 유니 코드 7.0에는 또 다른 250 개가 추가 될 것입니다. 감정 주석이 포함 된 …

12 machine-learning classification parsing

3

샘플 크기가 다른 여러 분류기의 성능 측정

현재 텍스트에서 추출한 다양한 엔터티에 여러 분류기를 사용하고 있으며 각 개별 분류 기가 주어진 데이터 집합에서 얼마나 잘 수행되는지에 대한 요약으로 정밀도 / 호출을 사용하고 있습니다. 이러한 분류기의 성능을 비슷한 방식으로 비교하는 의미있는 방법이 있는지 궁금하지만 분류되는 테스트 데이터의 각 엔터티 수를 고려합니까? 현재는 성능 측정으로 정밀도 / 호출을 사용하고 …

12 classification performance

1

전역 압축 방법과 범용 압축 방법의 차이점은 무엇입니까?

압축 방법은 두 가지 주요 세트로 나눌 수 있음을 이해합니다. 글로벌 현지 첫 번째 세트는 처리중인 데이터에 관계없이 작동합니다. 즉, 데이터의 특성에 의존하지 않으므로 데이터 세트의 일부 (압축 자체 이전)에서 사전 처리를 수행 할 필요가 없습니다. 반면에 로컬 방법은 데이터를 분석하여 일반적으로 압축률을 향상시키는 정보를 추출합니다. 이 방법들 중 일부에 …

12 classification algorithms encoding

1

몇 개의 LSTM 셀을 사용해야합니까?

사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

VC 치수를 계산하는 방법?

기계 학습을 공부하고 있는데 VC 치수를 계산하는 방법을 알고 싶습니다. 예를 들면 다음과 같습니다. h ( x ) = { 10만약 ≤X≤B그밖에 h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , 파라미터들( a , b ) ∈ R2(a,b)∈R2(a,b) ∈ R^2 . 그것의 …

12 machine-learning classification vc-theory

4

Occam의 Razor 원리는 기계 학습에서 어떻게 작동합니까?

이미지에 표시된 다음 질문은 최근 시험 중 하나에서 요청되었습니다. 내가 Occam의 Razor 원칙을 올바르게 이해했는지 잘 모르겠습니다. 질문에 주어진 분포와 결정 경계에 따라 Occam 's Razor에 이어 두 경우 모두 결정 경계 B가 답이되어야합니다. Occam의 Razor에 따라 복잡한 분류기보다 알맞은 분류기를 선택하십시오. 내 이해가 정확하고 선택한 답변이 적절한 지 아닌지 …

11 machine-learning classification

3

파이썬에 적합한 기본 언어 모델이 있습니까?

응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

사전 훈련 된 CNN 분류기를 사용하여 다른 이미지 데이터 세트에 적용

당신은 어떻게 할 최적화 사전에 훈련 된 neural network 별도의 문제에 적용 할 수 있습니까? 사전 훈련 된 모델 에 더 많은 레이어를 추가 하고 데이터 세트에서 테스트 하시겠습니까? 예를 들어, 작업이 CNN 을 사용하여 배경 화면 그룹 을 분류하는 경우 이미지 분류 기인 경우에도 이미지 고양이와 개에 대해 훈련 …

11 neural-network deep-learning classification convnet

2

데이터 세트를 분류 할 수 없다고 언제 말합니까?

나는 실제로 어떤 종류의 분류도 할 수없는 데이터 세트를 분석했습니다. 분류자를 얻을 수 있는지 확인하려면 일반적으로 다음 단계를 사용했습니다. 숫자 값에 대한 레이블의 상자 그림을 생성합니다. 클래스가 분리 가능한지 확인하기 위해 차원을 2 또는 3으로 줄이십시오. 때로는 LDA를 사용해보십시오. SVM 및 임의 포리스트에 맞게 조정하고 기능의 중요성을 살펴보고 기능이 의미가 …

11 machine-learning classification deep-learning class-imbalance bayes-error

2

컨볼 루션 신경망을 사용한 문서 분류

CNN (Convolutional Neural Network)을 사용하여 문서를 분류하려고합니다. 짧은 텍스트 / 문장에 대한 CNN은 많은 논문에서 연구되었습니다. 그러나 긴 텍스트 나 문서에 CNN을 사용한 논문은없는 것 같습니다. 내 문제는 문서의 기능이 너무 많다는 것입니다. 내 데이터 세트에서 각 문서에는 1000 개 이상의 토큰 / 단어가 있습니다. 각 예제를 CNN에 제공하기 위해 …

11 classification neural-network text-mining convnet word2vec

3

언밸런스 클래스 — 오탐을 최소화하는 방법?

이진 클래스 특성이있는 데이터 집합이 있습니다. +1 클래스 (암 양성)의 623 개의 인스턴스와 -1 클래스 (암 음성)의 101,671 개의 인스턴스가 있습니다. 다양한 알고리즘 (Naive Bayes, Random Forest, AODE, C4.5)을 시도했지만 모두 허용 할 수없는 거짓 음수 비율을 가지고 있습니다. 랜덤 포레스트는 전체 예측 정확도가 가장 높고 (99.5 %)가 음성 비율이 …

11 classification random-forest decision-trees unbalanced-classes

3

양수 및 레이블이없는 데이터 만 사용하여 이진 분류기를 만듭니다.

나는 2 개의 데이터 세트를 가지고 있는데, 하나는 탐지하고자하는 긍정적 인 인스턴스가 있고 다른 하나는 레이블이없는 인스턴스가 있습니다. 어떤 방법을 사용할 수 있습니까? 예를 들어, 구조화 된 이메일 특성 몇 가지를 기반으로 스팸 이메일 탐지를 이해하려고한다고 가정합니다. 스팸 이메일 1 개의 데이터 세트와 스팸 여부를 모르는 100000 개의 이메일 데이터 …

11 classification semi-supervised-learning

4

분류 규칙 생성을위한 알고리즘

따라서 분류 자에 의해 해결 된 기존의 문제 영역에 상당히 잘 맞는 머신 러닝 응용 프로그램의 가능성이 있습니다. 즉, 항목과 항목을 설명하는 속성 집합이 있습니다. 그러나 모델을 만드는 대신 Naive Bayes 또는 유사한 분류기에서와 같이 확률이 높으면 최종 사용자가 검토하고 수정할 수있는 대략적인 사람이 읽을 수있는 규칙 집합이되기를 원합니다. 연관 …

11 machine-learning classification

3

다자간 시스템에서 선거 결과를 계산하기 위해 어떤 회귀를 사용합니까?

의회 선거 결과를 예측하고 싶습니다. 내 결과는 각 당사자가받는 %입니다. 둘 이상의 당사자가 있으므로 로지스틱 회귀는 실행 가능한 옵션이 아닙니다. 각 당사자에 대해 별도의 회귀를 만들 수 있지만 그 경우 결과는 서로 독립적입니다. 결과의 합이 100 %임을 보장하지는 않습니다. 어떤 회귀 (또는 다른 방법)를 사용해야합니까? 특정 라이브러리를 통해 R 또는 …

11 classification r python regression predictive-modeling

«classification» 태그된 질문