«dataset» 태그된 질문

데이터 세트는 종종 표 형식 또는 행렬 형식의 데이터 모음입니다. 이 태그는 데이터 요청을위한 것이 아닙니다 ( "...에 대한 데이터 세트를 어디에서 찾을 수 있습니까?")-> OpenData 참조

6
모범 사례를 이해하는 데이터 세트
저는 데이터 마이닝의 CS 마스터 학생입니다. 관리자는 분류기를 실행하거나 데이터 집합으로 작업을 수행하기 전에 데이터를 완전히 이해하고 데이터가 깨끗하고 올바른지 확인해야한다고 말했습니다. 내 질문 : 데이터 세트를 이해하는 가장 좋은 방법은 무엇입니까 (수치 및 명목 속성이있는 고차원)? 데이터 세트가 깨끗한 지 확인하는 방법? 데이터 집합에 잘못된 값이 없는지 확인하는 방법?

4
큰 범주 값에 대한 하나의 핫 인코딩 대안?
1600 개가 넘는 범주 값이 큰 데이터 프레임이 있습니다 .1600 개가 넘는 열이 없도록 대안을 찾을 수있는 방법이 있습니까? 나는 재미있는 링크 http://amunategui.github.io/feature-hashing/#sourcecode 아래에서 이것을 발견했다. 그러나 그들은 내가 원하지 않는 클래스 / 객체로 변환하고 있습니다. 다른 머신 러닝 모델로 테스트 할 수 있도록 최종 출력을 데이터 프레임으로 원합니까? 또는 …

2
왜 우리는 데이터 불균형을 처리해야합니까?
데이터 불균형을 처리해야하는 이유 를 알아야 합니다. 업 샘플링 또는 다운 샘플링 또는 Smote를 사용하여 문제를 해결하는 방법과 다양한 방법을 알고 있습니다. 예를 들어, 100 명 중 1 %의 희귀 질환이 있고 훈련 세트에 대해 균형 잡힌 데이터 세트를 결정했다고 가정 해 보겠습니다. 50/50 샘플 기계가 환자의 50 %가 질병? …

2
항공 요금-경쟁력있는 가격 결정 동작과 가격 상관 관계를 탐지하기 위해 어떤 분석을 사용해야합니까?
항공사의 가격 결정 동작, 특히 항공사가 경쟁사 가격에 반응하는 방식을 조사하고 싶습니다. 더 복잡한 분석에 대한 내 지식은 상당히 제한적이라고 말하지만 데이터의 전체적인 관점을 수집하기 위해 대부분 기본 방법을 모두 사용했습니다. 여기에는 유사한 패턴을 식별하는 데 도움이되는 간단한 그래프가 포함됩니다. SAS Enterprise 9.4도 사용하고 있습니다. 그러나 나는 더 많은 숫자 …

4
웹에서 대규모 데이터 세트를 AWS S3로 직접 다운로드
누구든지 URL에서 큰 데이터 세트를 Amazon S3로 가져올 수 있는지 알고 있습니까? 기본적으로 큰 파일을 다운로드 한 다음 웹 포털을 통해 S3에 다시 업로드하지 않으려 고합니다. S3에 다운로드 URL을 제공하고 파일 시스템으로 다운로드 할 때까지 기다립니다. 쉬운 일처럼 보이지만 문서를 찾을 수는 없습니다.
12 dataset  aws 

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
머신 러닝 모델을 훈련시키기에 충분한 데이터가 있습니까?
저는 머신 러닝과 생물 정보학을 한동안 연구 해 왔으며, 오늘 저는 데이터 마이닝의 주요 일반 문제에 대해 동료와 대화를 나누었습니다. 기계 학습 전문가 인 제 동료는 머신 러닝의 가장 중요한 실질적인 측면은 머신 러닝 모델을 훈련시키기에 충분한 데이터를 수집했는지 여부를 이해하는 방법이라고 말했습니다 . 이 말은 내가이면에서 그토록 큰 중요성을 …

4
주식에 대한 과거 시가 총액 및 일일 매출 데이터는 어디서 다운로드 할 수 있습니까?
과거의 주식 데이터를 제공하는 소스는 많지만 볼륨 및 조정 된 닫기와 함께 OHLC 필드 만 제공합니다. 또한 내가 찾은 두 가지 소스는 시가 총액 데이터 세트를 제공하지만 미국 주식으로 제한됩니다. Yahoo Finance는이 데이터를 온라인으로 제공하지만 다운로드 할 수있는 옵션이 없습니다 (또는 내가 아는 바 없음). 티커 이름을 사용하여 국가 간 …
11 dataset 

3
언제 데이터 셋을 불균형으로 간주해야합니까?
데이터 세트의 긍정적 및 부정적 예의 수가 불균형 인 상황에 직면하고 있습니다. 내 질문은 데이터 집합에서 일종의 균형을 맞추기 위해 큰 범주를 하위 샘플링 해야하는시기를 알려주는 경험 법칙이 있습니까? 예 : 긍정적 인 예의 수가 1,000이고 부정적인 예의 수가 10,000이면, 전체 데이터 세트에 대한 분류기를 훈련해야합니까, 아니면 부정적인 예를 서브 …

3
네트워크 분석 클래식 데이터 세트
기계 학습 분류 / 회귀 작업에 대한 몇 가지 고전적인 데이터 세트가 있습니다. 가장 인기있는 것은 : 아이리스 꽃 데이터 세트 ; 타이타닉 데이터 세트 ; 모터 트렌드 자동차 ; 기타 그러나 네트워크 분석 / 그래프 이론에 대한 유사한 데이터 세트를 아는 사람이 있습니까? 더 구체적- 비교 / 평가 / …
10 dataset  graphs 

1
별도의 파이썬 프로세스를 통해 HDF5를 안정적으로 쓰고 동시에 읽을 수 있습니까?
시간이 지남에 따라 라이브 데이터를이 프로젝트의 전체 데이터 세트가 포함 된 단일 HDF5 파일로 기록하는 스크립트를 작성 중입니다. Python 3.6으로 작업 중이며 click데이터를 수집하는 데 사용하는 명령 줄 도구를 만들기로 결정했습니다 . 데이터 수집 스크립트가 HDF5 파일에 쓰고 있는데 아직 ML 응용 프로그램이 동일한 파일에서 데이터를 읽으려고하면 어떻게 될까요? HDF5 …
9 python  dataset 

2
협업 필터링을위한 벤치 마크 데이터 세트
협업 필터링을 위한 새로운 알고리즘을 테스트하고 싶습니다 . 일반적인 사용 사례는 특정 사용자와 유사한 사용자의 환경 설정을 기반으로 영화를 추천하는 것입니다. 연구원들이 알고리즘을 테스트하기 위해 자주 사용하는 일반적인 벤치 마크 데이터 세트는 무엇입니까? Computer Vision 내에서 사람들은 종종 MNIST 또는 CIFAR을 사용하지만 협업 필터링을위한 유사한 데이터 세트를 찾지 못했습니다.

2
아마존에서 사용자의 구매 행동을 모델링하는 방법은 무엇입니까?
데이터 과학의 최종 과정 프로젝트를 위해 다음을 제안했습니다. Amazon Reviews Dataset을 제공하면 Amazon 에 광고를 배치하기위한 전략적 위치를 결정하는 알고리즘 (대략 개인화 된 PageRank 기반)을 제시 할 계획입니다. 예를 들어 아마존에는 수백만 개의 제품이 있습니다. 그리고 데이터 세트는 어떤 제품이 관련되어 있는지, 어떤 제품이 모여서 함께 보았는지 등에 대한 아이디어를 …

4
텍스트 분류기 교육 데이터 세트 제안
텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까? Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에. 이 정보를 사용하여 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.