데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A


2
검증 손실 및 정확도는 일정하게 유지
이 논문을 일련의 의료 이미지에 구현하려고합니다 . Keras에서하고 있습니다. 네트워크는 기본적으로 4 개의 conv 및 max-pool 레이어와 완전히 연결된 레이어 및 소프트 최대 분류기로 구성됩니다. 내가 아는 한,이 논문에서 언급 한 아키텍처를 따랐습니다. 그러나 유효성 검사 손실 및 정확도는 전체적으로 동일하게 유지됩니다. 정확도는 ~ 57.5 %로 고정 된 것으로 보입니다. …

3
불균형 데이터에 대한 Tensorflow 조정 비용 기능
불균형이 심한 데이터에 분류 문제가 있습니다. 오버 샘플링과 언더 샘플링은 물론 불충분 한 범주 형 출력에 대한 비용을 변경하면 더 적합한 결과를 얻을 수 있습니다. 이 작업을 수행하기 전에 tensorflow는 각 입력을 다수 그룹으로 분류합니다 (그리고 의미가없는 것처럼 90 % 이상의 정확도를 얻습니다). 각 그룹의 역률 로그가 내가 시도한 최고의 …

2
소리 인식을위한 스펙트로 그램을 이용한 딥 러닝
스펙트로 그램을 사용하여 소리 (예 : 동물 소리)를 분류 할 수있는 가능성을 조사했습니다. 아이디어는 깊은 컨볼 루션 신경망을 사용하여 스펙트로 그램의 세그먼트를 인식하고 하나 (또는 ​​많은) 클래스 레이블을 출력하는 것입니다. 이것은 새로운 아이디어가 아닙니다 (예 : 고래 소리 분류 또는 음악 스타일 인식 참조 ). 내가 직면하고있는 문제는 길이가 다른 …

3
xgboost의 대략적인 스플릿 포인트 제안을 이해하는 데 도움이 필요합니다
배경: 에 xgboost 반복 시도 트리에 맞게 F t을 온통 n 개의 목적은 다음 최소화 예 :tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] 여기서 일차 및 이전 최상의 추정을 통해 2 차 유도체 (Y) (반복에서 t - 1 ) :gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) 그리고 우리의 손실 함수입니다.lll 질문은 (마침내) : 빌드 …
12 xgboost  gbm 

3
범주 형 데이터와 숫자 형 데이터를 어떻게 동적으로 구별 할 수 있습니까?
열이나 데이터 형식에 관계없이 데이터 파일을 수집하는 프로젝트를 수행하는 사람을 알고 있습니다. 이 작업은 임의의 수의 열과 다양한 데이터 유형 및 숫자 데이터에 대한 요약 통계를 출력하는 파일을 가져 오는 것입니다. 그러나 특정 숫자 기반 데이터에 대해 데이터 유형을 동적으로 할당하는 방법을 잘 모릅니다. 예를 들면 다음과 같습니다. CITY Albuquerque …

1
scikit-learn을 사용하여 임의 포리스트에서 기능 중요도를 사용하여 기능 선택
나는 한 scikit 배우기와 임의 숲의 기능 importances를 꾸몄다 . 랜덤 포레스트를 사용한 예측을 향상시키기 위해 플롯 정보를 사용하여 피처를 제거하려면 어떻게해야합니까? 즉, 플롯 정보를 기반으로 기능이 쓸모 없는지 또는 임의의 포리스트 성능이 더 나빠지는지 확인하는 방법은 무엇입니까? 줄거리는 속성을 기반으로 feature_importances_하며 분류자를 사용합니다 sklearn.ensemble.RandomForestClassifier. 기능 선택을위한 다른 기술 이 …

4
웹에서 대규모 데이터 세트를 AWS S3로 직접 다운로드
누구든지 URL에서 큰 데이터 세트를 Amazon S3로 가져올 수 있는지 알고 있습니까? 기본적으로 큰 파일을 다운로드 한 다음 웹 포털을 통해 S3에 다시 업로드하지 않으려 고합니다. S3에 다운로드 URL을 제공하고 파일 시스템으로 다운로드 할 때까지 기다립니다. 쉬운 일처럼 보이지만 문서를 찾을 수는 없습니다.
12 dataset  aws 

3
NLTK의 NER 관련 도움말
파이썬을 사용하는 동안 NLTK에서 한동안 일했습니다. 내가 직면하고있는 문제는 NLTK의 NER를 내 사용자 정의 데이터로 훈련시키는 데 도움이되지 않는다는 것입니다. 그들은 MaxEnt를 사용하여 ACE 말뭉치에 대해 교육했습니다. 웹에서 많이 검색했지만 NLTK의 NER를 훈련시키는 데 사용할 수있는 방법을 찾지 못했습니다. 누구든지 NLTK NER 교육에 사용되는 교육 데이터 세트 형식으로 안내 할 …

2
불균일 간격 시계열 모델링
불규칙한 간격으로 1 년 동안 샘플링 된 연속 변수가 있습니다. 어떤 날에는 시간당 하나 이상의 관측치가 있지만 다른 기간에는 며칠 동안 아무것도 없습니다. 따라서 몇 달 (예 : 10 월)은 샘플링이 많고 다른 달은 샘플링되지 않기 때문에 시계열에서 패턴을 감지하기가 특히 어렵습니다. 내 질문은이 시계열을 모델링하는 가장 좋은 방법은 무엇입니까? …

2
리더 보드 점수의 마이닝 스트림에 도움이되는 오픈 소스 도구
온라인 게임에서 사용자의 점수를 나타내는 튜플이 포함 된 스트림을 고려하십시오 (user, new_score). 스트림은 초당 100-1,000 개의 새로운 요소를 가질 수 있습니다. 이 게임에는 고유 한 플레이어가 200K에서 300K까지 있습니다. 다음과 같은 스탠딩 쿼리를 원합니다. 1 시간 동안 슬라이딩 창에 x 점 이상의 점수를 올린 선수 1 시간 동안 슬라이딩 윈도우에서 …

3
소셜 네트워크의 성장을 애니메이션으로 만드는 방법은 무엇입니까?
새로운 노드 / 에지가 추가 될 때 소셜 네트워크가 어떻게 변하는 지 시각화 할 라이브러리 / 도구를 찾고 있습니다. 기존 솔루션 중 하나는 SoNIA : Social Network Image Animator 입니다. 그것은 당신이 좋아하는 영화를 만들어 보자 이 하나 . SoNIA의 문서에 따르면 현재는 고장 났으며 그 외에도 JavaScript 기반 솔루션을 …

3
큰 데이터베이스에 대한 쿼리는 무시할 수있는 대기 시간으로 어떻게 반환됩니까?
예를 들어 Google에서 무언가를 검색하면 결과가 거의 즉시 반환됩니다. Google은 알고리즘 등을 사용하여 페이지를 정렬하고 색인을 생성하지만 가능한 모든 단일 쿼리의 결과를 색인화하는 것은 불가능하다고 생각합니다 (결과는 개인화되어 더 불가능합니다). 또한 Google 하드웨어의 하드웨어 대기 시간이 크지 않습니까? Google의 데이터가 모두 TB / s SSD에 저장되어 있어도 처리해야 할 데이터의 …
12 bigdata  google  search 

2
비 이미지 비 NLP 작업에 대한 딥 러닝?
지금까지 컴퓨터 비전이나 자연어 처리에 대한 딥 러닝을위한 많은 흥미로운 응용 프로그램이 있습니다. 다른 전통적인 분야에서는 어떻습니까? 예를 들어, 나는 전통적인 사회 인구 통계 변수와 많은 실험실 측정을 가지고 특정 질병을 예측하려고합니다. 관찰 결과가 많으면 딥 러닝 응용 프로그램입니까? 여기서 네트워크를 어떻게 구성할까요? 모든 공상 레이어 (콘볼 루션 등)가 실제로 …

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.