데이터 과학 binary

9

저는 지구 물리학 박사 학위를 받았으며 많은 양의 이미지 데이터 (수백 GB, 수만 개의 파일)를 다루고 있습니다. 나도 svn과 git상당히 잘 함께 쉽게 작업 할 수있는 기능과 함께 프로젝트 역사를 소중히 디스크 손상에 대한 보호를 갖게. 내가 찾아 git도 일관된 백업을 가진 매우 유용하지만 난 그 자식 효율적 이진 많은 …

46 bigdata databases binary version-control

3

Python 머신 러닝 모델을 저장하는 모범 사례

머신 러닝 모델을 저장, 저장 및 공유하는 모범 사례는 무엇입니까? 파이썬에서는 일반적으로 pickle 또는 joblib을 사용하여 모델의 이진 표현을 저장합니다. 필자의 경우 모델은 ~ 100Mo 크기 일 수 있습니다. 또한 joblib은 설정하지 않는 한 하나의 모델을 여러 파일에 저장할 수 있습니다 compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). 그러나 모델에 대한 액세스 권한을 …

24 python databases binary

5

이진 분류 알고리즘을 선택하십시오

이진 분류 문제가 있습니다. 훈련 세트에서 약 1000 개의 샘플 이진, 숫자 및 범주를 포함한 10 가지 속성 이 유형의 문제에 가장 적합한 알고리즘은 무엇입니까? 기본적으로 나는 비교적 깨끗하고 시끄럽지 않은 데이터에 가장 적합한 것으로 간주되므로 SVM (공칭 속성 값을 이진 기능으로 변환 한 예비)으로 시작하겠습니다.

17 classification binary svm random-forest logistic-regression

3

파이썬에 적합한 기본 언어 모델이 있습니까?

응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

3

과학 컴퓨팅을위한 최고의 언어

폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

여러 유형의 모델이 왜 거의 동일한 결과를 낼 수 있습니까?

~ 400k 레코드와 9 개 변수의 데이터 세트를 분석했습니다. 종속 변수는 이진입니다. 로지스틱 회귀, 회귀 트리, 임의의 숲 및 그라디언트 강화 트리를 장착했습니다. 다른 데이터 세트에서 유효성을 검사 할 때 모두 동일한 똑같은 적합도를 제공합니다. 왜 그렇습니까? 가변 비율에 대한 나의 관측치가 너무 높기 때문이라고 생각합니다. 이것이 정확하다면, 어떤 모델 …

10 data-mining classification binary

«binary» 태그된 질문