«dataset» 태그된 질문

데이터 세트는 종종 표 형식 또는 행렬 형식의 데이터 모음입니다. 이 태그는 데이터 요청을위한 것이 아닙니다 ( "...에 대한 데이터 세트를 어디에서 찾을 수 있습니까?")-> OpenData 참조

30
공개적으로 사용 가능한 데이터 세트
데이터 과학의 일반적인 문제 중 하나는 여러 소스에서 데이터를 어떻게 정리 (반 구조화 된) 형식으로 수집하고 다양한 소스의 메트릭을 결합하여 더 높은 수준의 분석을 수행하는 것입니다. 다른 사람들의 노력, 특히이 사이트의 다른 질문들을 보면이 분야의 많은 사람들이 다소 반복적 인 일을하고있는 것 같습니다. 예를 들어 트윗, 페이스 북 게시물, 위키 …

5
'균형'데이터 세트 또는 '대표'데이터 세트를 사용해야합니까?
나의 '머신 러닝'과제는 양성 인터넷 트래픽과 악성 트래픽을 분리하는 것입니다. 실제 시나리오에서 인터넷 트래픽의 대부분 (예 : 90 % 이상)은 양성입니다. 따라서 모델 훈련을 위해 유사한 데이터 설정을 선택해야한다고 생각했습니다. 그러나 나는 모델을 훈련시키기 위해 "클래스 밸런싱"데이터 접근 방식을 사용하여 양성 및 악성 트래픽의 동일한 수의 인스턴스를 암시하는 연구 논문을 …

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
불균형이 높은 데이터 세트 교육에 대한 빠른 안내
훈련 세트에서 약 1000 개의 양성 및 10000 개의 음성 샘플로 분류 문제가 있습니다. 따라서이 데이터 세트는 상당히 불균형합니다. 일반 임의 포리스트는 모든 테스트 샘플을 대다수 클래스로 표시하려고합니다. 서브 샘플링 및 가중 임의 숲에 대한 좋은 답변은 여기에 주어집니다 : 높은 바이어스 데이터 세트와 나무 앙상블 훈련의 의미는 무엇인가? RF …

7
공개적으로 사용 가능한 소셜 네트워크 데이터 세트 / API
공개적으로 사용 가능한 데이터 세트 목록을 확장하여 공개적으로 사용 가능한 소셜 네트워크 데이터 세트 / 크롤링 API 목록이 있는지 알고 싶습니다. 데이터 세트 / API에 대한 링크와 함께 사용 가능한 데이터의 특성이 추가되면 매우 좋습니다. 이러한 정보는 다음과 같아야하며 이에 국한되지 않습니다. 소셜 네트워크의 이름; 어떤 종류의 사용자 정보 (게시물, …

4
최종 모델을 훈련시키기 위해 항상 전체 데이터 세트를 사용하는 것이 더 낫습니까?
선호하는 머신 러닝 모델을 교육, 검증 및 테스트 한 후의 일반적인 기술은 테스트 서브 세트를 포함한 전체 데이터 세트를 사용하여 최종 모델 ( 예 : 제품) 을 배포 하기 위해 학습 하는 것입니다. 내 질문은 : 항상 그렇게하는 것이 최선입니까? 실제로 성능이 저하되면 어떻게됩니까? 예를 들어, 테스트 하위 세트를 분류 …

3
데이터 과학 프로젝트 아이디어 [닫기]
폐쇄되었습니다 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 이것이이 질문을하기에 적합한 장소인지는 모르겠지만 Data Science 전담 커뮤니티가 제 생각에 가장 적합한 장소 여야합니다. 방금 데이터 과학 …

3
원래 데이터 세트로 학습 한 머신 러닝 모델을 사용하여 합성 데이터 세트를 생성하는 방법은 무엇입니까?
일반적으로 기계 학습 모델은 데이터 세트를 기반으로합니다. 원래의 데이터 셋 특성을 유지하는 훈련 된 머신 러닝 모델을 사용하여 합성 데이터 셋을 생성 할 수있는 방법이 있는지 알고 싶습니다. [원본 데이터-> 기계 학습 모델 구축-> ml 모델을 사용하여 합성 데이터를 생성합니다 .... !!!] 가능합니까? 가능하면 관련 자료를 알려주십시오.

3
비공식 텍스트에서 명명 된 엔터티 인식을위한 데이터 집합
나는 비공식 텍스트 (트위트와 비슷한 것)에서 명명 된 엔티티를 추출하기 위해 모델을 훈련시키기 위해 레이블이 지정된 데이터 세트를 검색하고 있습니다. 대문자 및 문법이 종종 내 데이터 세트의 문서에서 부족하기 때문에 오늘날의 최신 엔티티 인식 시스템이라는 뉴스 기사 및 저널 항목보다 약간 "비공식적 인"도메인 데이터를 찾고 있습니다. 훈련. 어떤 추천? 지금까지 …
18 dataset  nlp 


5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
왜 열차 및 테스트 데이터의 변수가 대문자를 사용하여 정의됩니까 (파이썬)?
이 질문이이 사이트에서 가장 적합하기를 바랍니다. Python에서 일반적으로 클래스 이름은 대문자를 첫 문자로 사용하여 정의됩니다 (예 : class Vehicle: ... 그러나, 기계 학습 분야에서, 종종는 훈련과 테스트 데이터는 다음과 같이 정의 X하고 Y-하지 x와 y. 예를 들어, Keras에서이 튜토리얼을 읽고 있지만 Xand Y를 변수로 사용합니다 . from sklearn import datasets …
15 python  dataset 

3
ImageNet에 개인 클래스가 있습니까? 인간과 관련된 수업이 있습니까?
인터넷 에서 Imagenet 클래스에 대한 많은 출처 중 하나를 보면 인간과 관련된 단일 클래스를 찾을 수 없습니다 (그리고 수확업자 는 수확하는 사람이 아니지만 내가 아빠 longlegs, 일종의 일종이라고 알고 있습니다 거미 :-). 어떻게 가능합니까? 나는 적어도이 예상에있는 것 person조차 뭔가 더 구체적으로 다음과 같은 클래스를, 그리고 man, woman, toddler, 등 …

3
언밸런스 클래스를 사용하면 유효성 검사 / 테스트 데이터 세트에서 샘플링을 사용해야합니까?
저는 기계 학습의 초보자이며 상황에 직면하고 있습니다. IPinYou 데이터 세트로 실시간 입찰 문제를 해결 중이며 클릭 예측을 시도하고 있습니다. 문제는 알 수 있듯이 데이터 세트의 균형이 매우 불균형하다는 것입니다. 1 긍정적 인 예 (클릭)에 대해 약 1300 개의 부정적인 예 (비 클릭). 이것이 제가하는 것입니다: 데이터로드 데이터 세트를 3 개의 …

2
독립 t- 검정을 사용하여 정규 분포가 아닌 A / B 테스트 결과 분석
정규 분포에 맞지 않는 A / B 테스트 (제어 그룹 1 개, 기능 그룹 1 개)의 결과 집합이 있습니다. 실제로이 배포판은 Landau 배포판과 더 비슷합니다. 독립 t- 검정은 표본이 최소한 정규 분포를 that어야하므로 t- 검정을 유효한 유의성 검정 방법으로 사용하지 못하게합니다. 그러나 내 질문은 : 어떤 시점에서 t- 검정이 유의성 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.