데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

2
VC 치수를 계산하는 방법?
기계 학습을 공부하고 있는데 VC 치수를 계산하는 방법을 알고 싶습니다. 예를 들면 다음과 같습니다. h ( x ) = { 10만약 ≤X≤B그밖에 h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , 파라미터들( a , b ) ∈ R2(a,b)∈R2(a,b) ∈ R^2 . 그것의 …

2
Python Pandas에서 두 개의 데이터 프레임을 어떻게 병합합니까?
두 개의 데이터 프레임 df1과 df2가 있으며 단일 데이터 프레임으로 병합하고 싶습니다. 마치 df1과 df2가 하나의 데이터 프레임을 가운데로 수직으로 분할하여 만든 것처럼 마치 목록이 포함 된 용지를 반으로 찢어 열의 절반이 한 용지에 가고 열의 절반이 다른 용지에 간다. 다시 함께 병합하고 싶습니다. 어떻게합니까?
12 pandas 

2
FPGrowth는 자주 패턴 마이닝에서 "최신 기술"로 간주됩니까?
FMF (Frequent Pattern Mining) 문제를 해결하기위한 알고리즘 개발을 알고있는 한, 개선의 길에는 몇 가지 주요 체크 포인트가 있습니다. 먼저, Apriori 알고리즘은 Agrawal et al.에 의해 1993 년에 제안되었다 . 문제의 공식화와 함께. 알고리즘은 데이터를 유지하기 위해 격자를 사용하여 세트 (파워 세트)에서 일부 세트 를 제거 할 수있었습니다 2^n - 1. …

2
대규모 데이터 세트를위한 효율적인 차원 축소
~ 1M 행과 ~ 500K 스파 스 기능이있는 데이터 세트가 있습니다. 1K-5K 고밀도 피쳐의 순서로 차원을 축소하고 싶습니다. sklearn.decomposition.PCA스파 스 데이터에서 작동하지 않으며 사용하려고 sklearn.decomposition.TruncatedSVD했지만 메모리 오류가 매우 빨리 발생합니다. 이 스케일에서 효율적인 차원 축소를위한 옵션은 무엇입니까?

1
CPU 사용량 및 메모리에 대한 scikit-learn n_jobs 매개 변수
scikit-learn의 대부분 추정기에는를 사용하여 병렬 작업을 작성하기위한 / 메소드에 n_jobs매개 변수가 있습니다. 이 프로세스 를 설정 하면 단 하나의 Python 프로세스 가 생성되고 코어가 최대가되어 CPU 사용량이 2500 %를 초과하는 것으로 나타났습니다 . 이것은 양의 정수> 1로 설정하는 것과는 매우 다르며 ~ 100 % 사용으로 여러 Python 프로세스를 만듭니다.fitpredictjoblib-1 이 …

2
임의 포리스트 분류에 범주 형 데이터 유형을 맞추려면 어떻게해야합니까?
Random Forest Algorithm을 적용하여 훈련 데이터 세트의 정확성을 찾아야합니다. 그러나 내 데이터 세트 유형은 범주 및 숫자입니다. 해당 데이터를 맞추려고 할 때 오류가 발생합니다. '입력에 NaN, 무한대 또는 dtype ('float32 ')에 비해 너무 큰 값이 있습니다.' 개체 데이터 형식에 문제가있을 수 있습니다. RF 적용을 위해 변환하지 않고 범주 형 데이터를 …

3
pyspark 데이터 프레임의 모든 숫자 값을 상수 값으로 바꿉니다.
'null'요소와 숫자 요소로 구성된 pyspark 데이터 프레임을 고려하십시오. 일반적으로 숫자 요소의 값은 다릅니다. 데이터 프레임의 모든 숫자 값을 상수 숫자 값 (예 : 값 1)으로 바꾸는 방법은 무엇입니까? 미리 감사드립니다! pyspark 데이터 프레임의 예 : 12삼c10.04− 1n u l lc21n u l l1.2c31.35− 1.2n u l lc1c2c310.0411.352−1엔유엘엘−1.2삼엔유엘엘1.2엔유엘엘 \begin{array}{c|lcr} & \text{c1} …


4
Occam의 Razor 원리는 기계 학습에서 어떻게 작동합니까?
이미지에 표시된 다음 질문은 최근 시험 중 하나에서 요청되었습니다. 내가 Occam의 Razor 원칙을 올바르게 이해했는지 잘 모르겠습니다. 질문에 주어진 분포와 결정 경계에 따라 Occam 's Razor에 이어 두 경우 모두 결정 경계 B가 답이되어야합니다. Occam의 Razor에 따라 복잡한 분류기보다 알맞은 분류기를 선택하십시오. 내 이해가 정확하고 선택한 답변이 적절한 지 아닌지 …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Keras를 사용하여 미래 시간대의 미래 가치를 예측하는 방법은 무엇입니까?
방금 Keras로 LSTM 신경망을 구축 했습니다. import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name = "DailyDemand.csv" data_csv …

1
사전 훈련 된 CNN 분류기를 사용하여 다른 이미지 데이터 세트에 적용
당신은 어떻게 할 최적화 사전에 훈련 된 neural network 별도의 문제에 적용 할 수 있습니까? 사전 훈련 된 모델 에 더 많은 레이어를 추가 하고 데이터 세트에서 테스트 하시겠습니까? 예를 들어, 작업이 CNN 을 사용하여 배경 화면 그룹 을 분류하는 경우 이미지 분류 기인 경우에도 이미지 고양이와 개에 대해 훈련 …

3
신경망-가장 유사한 이미지 찾기
저는 Python, scikit-learn 및 keras로 작업하고 있습니다. Watch_1 , Watch_2 , Watch_3 과 같은 3000 만 개의 전면 시계 이미지가 있습니다 . 위의 사진 (다른 배경색, 어두운 번개 등)보다 이상적인 조건에서 촬영 할 수있는 실제 시계의 사진을 입력으로 받아 3000 가지 중에서 가장 유사한 시계를 찾는 프로그램을 작성하고 싶습니다. 비슷하게 …

2
표본 외 데이터 과적 합에 대해 100 % 모델 정확도가 있습니까?
cognitiveclass.ai에서 R 과정에 대한 기계 학습을 마쳤으며 randomforests를 실험하기 시작했습니다. R의 "randomForest"라이브러리를 사용하여 모델을 만들었습니다.이 모델은 좋거나 나쁜 두 클래스로 분류됩니다. 모델이 과적 합되면 자체 훈련 세트의 데이터에서는 잘 수행되지만 샘플에서 벗어난 데이터에서는 제대로 수행되지 않습니다. 내 모델을 훈련하고 테스트하기 위해 전체 데이터 세트를 섞어서 훈련 용 70 %와 테스트 …

2
데이터 세트를 분류 할 수 없다고 언제 말합니까?
나는 실제로 어떤 종류의 분류도 할 수없는 데이터 세트를 분석했습니다. 분류자를 얻을 수 있는지 확인하려면 일반적으로 다음 단계를 사용했습니다. 숫자 값에 대한 레이블의 상자 그림을 생성합니다. 클래스가 분리 가능한지 확인하기 위해 차원을 2 또는 3으로 줄이십시오. 때로는 LDA를 사용해보십시오. SVM 및 임의 포리스트에 맞게 조정하고 기능의 중요성을 살펴보고 기능이 의미가 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.