데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

5
이상 감지를 통해 고양이를 시각적으로 감지
나는 지금까지 제한된 기계 학습 경험을 향상시키는 방법으로 노력하고있는 취미 프로젝트를 가지고 있습니다. 주제에 대해 Coursera MOOC를 수료하고 완료했습니다. 내 질문은 프로젝트의 타당성에 관한 것입니다. 작업은 다음과 같습니다. 이웃 고양이는 때때로 내 정원을 방문하는데, 그들은 내 잔디밭에서 배변하는 경향이 있기 때문에 싫어합니다. 고양이가있을 때 알려주는 경고 시스템을 갖고 싶어서 슈퍼 …

1
Keras 적합 함수의 validation_split 매개 변수는 어떻게 작동합니까?
Keras Sequential 모델 적합 함수의 유효성 검증 분할은 https://keras.io/models/sequential/에 다음과 같이 문서화되어 있습니다 . validation_split : 0과 1 사이의 부동 소수점입니다. 유효성 검사 데이터로 사용될 훈련 데이터의 비율. 이 모델은 훈련 데이터의이 부분을 분리하여 학습하지 않으며, 각 에포크의 끝에서이 데이터의 손실 및 모델 메트릭을 평가합니다. 유효성 검사 데이터는 셔플 링하기 …

2
검증 세트와 테스트 세트를 모두 사용하는 이유는 무엇입니까?
신경망을 고려하십시오. 주어진 데이터 세트에 대해 훈련, 검증 및 테스트 세트로 나눕니다. 고전적인 60:20:20 비율로이를 수행 한 다음 유효성 검사 세트에서 네트워크를 확인하여 과적 합을 방지합니다. 그렇다면 성능을 확인하기 위해 테스트 세트에서 테스트해야합니까? 테스트 세트의 오류는 네트워크에 대한 유효성 검사 세트와 다소 같지 않습니까? 유효성 검사 세트와 같이 보이지 않는 …

3
딥 러닝 모델을 훈련 할 때 미니 배치 메모리 영향을 계산하는 방법은 무엇입니까?
나는 안드레이 Karphaty에서이 노트를 기반으로 내 모델을 학습하기 위해 GPU에 의해 메모리에 필요한 양을 계산하기 위해 노력하고있어 : http://cs231n.github.io/convolutional-networks/#computational-considerations 내 네트워크에는 532,752 개의 활성화 와 19,072,984 개의 매개 변수 (가중치 및 바이어스)가 있습니다. 이들은 모두 32 비트 부동 소수점 값이므로 각각 4 바이트의 메모리를 사용합니다. 입력 이미지는 180x50x1 (너비 x …

4
기능 수와 인스턴스 수에 대한“거짓의 규칙”은 무엇입니까? (소규모 데이터 세트)
기능 수와 관측 수에 대한 휴리스틱이 있는지 궁금합니다. 분명히 많은 피처가 관측치 수와 같으면 모형이 과적 합 될 것입니다. 스파 스 방법 (LASSO, 탄력적 그물)을 사용하여 모델을 줄이기 위해 여러 기능을 제거 할 수 있습니다. 내 질문은 (이론적으로) : 모델 선택을 평가하기 위해 메트릭을 사용 하기 전에 최적 의 피처 …


2
분류기의 정확도를 높이는 방법?
임의의 나무와 다른 분류자를 실험하기 위해 OpenCV letter_recog.cpp 예제를 사용하고 있습니다. 이 예제에는 랜덤 트리, 부스팅, MLP, kNN, 순진한 베이 즈 및 SVM의 6 가지 분류 기가 구현되어 있습니다. 20000 개의 인스턴스와 16 개의 기능이 포함 된 UCI 문자 인식 데이터 세트가 사용되며 교육 및 테스트를 위해 절반으로 나눕니다. SVM에 …

5
이진 분류 알고리즘을 선택하십시오
이진 분류 문제가 있습니다. 훈련 세트에서 약 1000 개의 샘플 이진, 숫자 및 범주를 포함한 10 가지 속성 이 유형의 문제에 가장 적합한 알고리즘은 무엇입니까? 기본적으로 나는 비교적 깨끗하고 시끄럽지 않은 데이터에 가장 적합한 것으로 간주되므로 SVM (공칭 속성 값을 이진 기능으로 변환 한 예비)으로 시작하겠습니다.

1
심층 신경망-ReLU를 통한 역 전파
ReLU를 사용하여 전파를 되 찾는 데 어려움을 겪고 있으며 일부 작업을 수행했지만 제대로 진행되고 있는지 확실하지 않습니다. 비용 함수 : y는실수 값이고, y는 예측값이다. 또한항상x> 0이라고 가정하십시오.12(y−y^)212(y−y^)2\frac{1}{2}(y-\hat y)^2yyyy^y^\hat yxxx 1 층 ReLU, 1 층의 무게는 w1w1w_1 dCdw1=dCdRdRdw1dCdw1=dCdRdRdw1\frac{dC}{dw_1}=\frac{dC}{dR}\frac{dR}{dw_1} dCw1=(y−ReLU(w1x))(x)dCw1=(y−ReLU(w1x))(x)\frac{dC}{w_1}=(y-ReLU(w_1x))(x) 첫 번째 레이어의 가중치가 w2w2w_2 이고 두 번째 레이어가 2 레이어 ReLU, …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
tfrecord 파일을 샤드로 분할하면 어떤 이점이 있습니까?
Tensorflow를 사용하여 음성 인식을 연구하고 있으며 대규모 웨이브 데이터 세트로 LSTM NN을 훈련시킬 계획입니다. 성능 향상으로 인해 tfrecords를 사용할 계획입니다. tfrecords 파일이 샤드로 분할되는 인터넷 (예 : Inception for example)에는 몇 가지 예가 있습니다. 내 질문은 : tfrecords 파일을 샤드에 저장하면 어떤 이점이 있습니까? 이 스플릿의 추가 성능 향상이 있습니까?

5
기계 학습에서 희소 데이터와 밀도가 높은 데이터를 병합하여 성능 향상
나는 예측 가능한 희소 특징을 가지고 있으며, 또한 예측 가능한 조밀 한 특징이 있습니다. 분류기의 전반적인 성능을 향상 시키려면 이러한 기능을 결합해야합니다. 이제는 이들을 함께 결합하려고 할 때 밀도가 높은 기능은 희소 기능보다 더 많이 지배되는 경향이 있으므로 밀도가 높은 기능이있는 모델에 비해 AUC가 1 % 향상됩니다. 누군가 비슷한 문제를 …

2
테스트 데이터에도 정규화를 적용해야합니까?
저자 식별 문제에 관한 프로젝트를하고 있습니다. 데이터를 훈련시키기 위해 tf-idf 정규화를 적용한 다음 해당 데이터에 대해 svm을 훈련했습니다. 이제 분류기를 사용할 때 테스트 데이터도 정규화해야합니다. 정규화의 기본 목표는 학습 알고리즘이 학습하는 동안 더 중요한 기능에 더 많은 가중치를 부여하는 것입니다. 일단 훈련을 마치면 어떤 기능이 중요하지 않은지 이미 알고 있습니다. …

4
팬더가 data.table보다 빠릅니다.
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping data.table 벤치 마크는 2014 년 내가 들어 본 곳 이후 업데이트되지 않은 Pandas지금보다 더 빨리이다 data.table. 이것이 사실입니까? 누구든지 벤치 마크를 했습니까? 나는 전에 파이썬을 사용한 적이 없지만 pandas이길 수 있다면 전환을 고려할 것 data.table입니까?
17 python  r  pandas  data  data.table 

3
시계열의 이상 탐지를위한 좋은 패키지 찾기
시계열의 이상 탐지에 사용할 수있는 포괄적 인 오픈 소스 패키지 (Python 또는 R)가 있습니까? scikit-learn에는 하나의 클래스 SVM 패키지가 있지만 시계열 데이터는 아닙니다. 예를 들어 이상 감지를 위해 베이지안 네트워크를 사용하는보다 정교한 패키지를 찾고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.