데이터 과학 dataset

6

저는 데이터 마이닝의 CS 마스터 학생입니다. 관리자는 분류기를 실행하거나 데이터 집합으로 작업을 수행하기 전에 데이터를 완전히 이해하고 데이터가 깨끗하고 올바른지 확인해야한다고 말했습니다. 내 질문 : 데이터 세트를 이해하는 가장 좋은 방법은 무엇입니까 (수치 및 명목 속성이있는 고차원)? 데이터 세트가 깨끗한 지 확인하는 방법? 데이터 집합에 잘못된 값이 없는지 확인하는 방법?

13 statistics dataset

4

큰 범주 값에 대한 하나의 핫 인코딩 대안?

1600 개가 넘는 범주 값이 큰 데이터 프레임이 있습니다 .1600 개가 넘는 열이 없도록 대안을 찾을 수있는 방법이 있습니까? 나는 재미있는 링크 http://amunategui.github.io/feature-hashing/#sourcecode 아래에서 이것을 발견했다. 그러나 그들은 내가 원하지 않는 클래스 / 객체로 변환하고 있습니다. 다른 머신 러닝 모델로 테스트 할 수 있도록 최종 출력을 데이터 프레임으로 원합니까? 또는 …

13 machine-learning dataset dimensionality-reduction encoding

2

왜 우리는 데이터 불균형을 처리해야합니까?

데이터 불균형을 처리해야하는 이유 를 알아야 합니다. 업 샘플링 또는 다운 샘플링 또는 Smote를 사용하여 문제를 해결하는 방법과 다양한 방법을 알고 있습니다. 예를 들어, 100 명 중 1 %의 희귀 질환이 있고 훈련 세트에 대해 균형 잡힌 데이터 세트를 결정했다고 가정 해 보겠습니다. 50/50 샘플 기계가 환자의 50 %가 질병? …

12 classification dataset sampling class-imbalance

2

항공 요금-경쟁력있는 가격 결정 동작과 가격 상관 관계를 탐지하기 위해 어떤 분석을 사용해야합니까?

항공사의 가격 결정 동작, 특히 항공사가 경쟁사 가격에 반응하는 방식을 조사하고 싶습니다. 더 복잡한 분석에 대한 내 지식은 상당히 제한적이라고 말하지만 데이터의 전체적인 관점을 수집하기 위해 대부분 기본 방법을 모두 사용했습니다. 여기에는 유사한 패턴을 식별하는 데 도움이되는 간단한 그래프가 포함됩니다. SAS Enterprise 9.4도 사용하고 있습니다. 그러나 나는 더 많은 숫자 …

12 data-mining dataset regression correlation visualization

4

웹에서 대규모 데이터 세트를 AWS S3로 직접 다운로드

누구든지 URL에서 큰 데이터 세트를 Amazon S3로 가져올 수 있는지 알고 있습니까? 기본적으로 큰 파일을 다운로드 한 다음 웹 포털을 통해 S3에 다시 업로드하지 않으려 고합니다. S3에 다운로드 URL을 제공하고 파일 시스템으로 다운로드 할 때까지 기다립니다. 쉬운 일처럼 보이지만 문서를 찾을 수는 없습니다.

12 dataset aws

1

몇 개의 LSTM 셀을 사용해야합니까?

사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

파이썬에 적합한 기본 언어 모델이 있습니까?

응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

머신 러닝 모델을 훈련시키기에 충분한 데이터가 있습니까?

저는 머신 러닝과 생물 정보학을 한동안 연구 해 왔으며, 오늘 저는 데이터 마이닝의 주요 일반 문제에 대해 동료와 대화를 나누었습니다. 기계 학습 전문가 인 제 동료는 머신 러닝의 가장 중요한 실질적인 측면은 머신 러닝 모델을 훈련시키기에 충분한 데이터를 수집했는지 여부를 이해하는 방법이라고 말했습니다 . 이 말은 내가이면에서 그토록 큰 중요성을 …

11 machine-learning data-mining dataset data-cleaning data

4

주식에 대한 과거 시가 총액 및 일일 매출 데이터는 어디서 다운로드 할 수 있습니까?

과거의 주식 데이터를 제공하는 소스는 많지만 볼륨 및 조정 된 닫기와 함께 OHLC 필드 만 제공합니다. 또한 내가 찾은 두 가지 소스는 시가 총액 데이터 세트를 제공하지만 미국 주식으로 제한됩니다. Yahoo Finance는이 데이터를 온라인으로 제공하지만 다운로드 할 수있는 옵션이 없습니다 (또는 내가 아는 바 없음). 티커 이름을 사용하여 국가 간 …

11 dataset

3

언제 데이터 셋을 불균형으로 간주해야합니까?

데이터 세트의 긍정적 및 부정적 예의 수가 불균형 인 상황에 직면하고 있습니다. 내 질문은 데이터 집합에서 일종의 균형을 맞추기 위해 큰 범주를 하위 샘플링 해야하는시기를 알려주는 경험 법칙이 있습니까? 예 : 긍정적 인 예의 수가 1,000이고 부정적인 예의 수가 10,000이면, 전체 데이터 세트에 대한 분류기를 훈련해야합니까, 아니면 부정적인 예를 서브 …

10 classification dataset sampling class-imbalance

3

네트워크 분석 클래식 데이터 세트

기계 학습 분류 / 회귀 작업에 대한 몇 가지 고전적인 데이터 세트가 있습니다. 가장 인기있는 것은 : 아이리스 꽃 데이터 세트 ; 타이타닉 데이터 세트 ; 모터 트렌드 자동차 ; 기타 그러나 네트워크 분석 / 그래프 이론에 대한 유사한 데이터 세트를 아는 사람이 있습니까? 더 구체적- 비교 / 평가 / …

10 dataset graphs

1

별도의 파이썬 프로세스를 통해 HDF5를 안정적으로 쓰고 동시에 읽을 수 있습니까?

시간이 지남에 따라 라이브 데이터를이 프로젝트의 전체 데이터 세트가 포함 된 단일 HDF5 파일로 기록하는 스크립트를 작성 중입니다. Python 3.6으로 작업 중이며 click데이터를 수집하는 데 사용하는 명령 줄 도구를 만들기로 결정했습니다 . 데이터 수집 스크립트가 HDF5 파일에 쓰고 있는데 아직 ML 응용 프로그램이 동일한 파일에서 데이터를 읽으려고하면 어떻게 될까요? HDF5 …

9 python dataset

2

협업 필터링을위한 벤치 마크 데이터 세트

협업 필터링을 위한 새로운 알고리즘을 테스트하고 싶습니다 . 일반적인 사용 사례는 특정 사용자와 유사한 사용자의 환경 설정을 기반으로 영화를 추천하는 것입니다. 연구원들이 알고리즘을 테스트하기 위해 자주 사용하는 일반적인 벤치 마크 데이터 세트는 무엇입니까? Computer Vision 내에서 사람들은 종종 MNIST 또는 CIFAR을 사용하지만 협업 필터링을위한 유사한 데이터 세트를 찾지 못했습니다.

9 dataset recommender-system

2

아마존에서 사용자의 구매 행동을 모델링하는 방법은 무엇입니까?

데이터 과학의 최종 과정 프로젝트를 위해 다음을 제안했습니다. Amazon Reviews Dataset을 제공하면 Amazon 에 광고를 배치하기위한 전략적 위치를 결정하는 알고리즘 (대략 개인화 된 PageRank 기반)을 제시 할 계획입니다. 예를 들어 아마존에는 수백만 개의 제품이 있습니다. 그리고 데이터 세트는 어떤 제품이 관련되어 있는지, 어떤 제품이 모여서 함께 보았는지 등에 대한 아이디어를 …

9 machine-learning data-mining dataset recommender-system

4

텍스트 분류기 교육 데이터 세트 제안

텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까? Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에. 이 정보를 사용하여 …

9 machine-learning classification dataset clustering text-mining

«dataset» 태그된 질문