«python» 태그된 질문

파이썬은 기계 학습에 일반적으로 사용되는 프로그래밍 언어입니다. (a) 'Python'이 질문의 중요한 부분 또는 예상 답변으로 포함되어 있고 (b) 'Python'사용법에 대해 * 일부 *가 아닌 * on-topic * 질문에이 태그를 사용하십시오.

2
Tensorflow`tf.train.Optimizer`는 어떻게 그라디언트를 계산합니까?
Tensorflow mnist 튜토리얼 ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py )을 따르고 있습니다 . 튜토리얼은 tf.train.Optimizer.minimize(특히 tf.train.GradientDescentOptimizer)를 사용합니다 . 그라디언트를 정의하기 위해 인수가 전달되는 곳이 없습니다. 텐서 흐름은 기본적으로 수치 미분을 사용합니까? 당신이 할 수있는 것처럼 그라디언트를 전달하는 방법이 scipy.optimize.minimize있습니까?

1
랜덤 포레스트 확률 론적 예측 대 다수 투표
Scikit은 왜 (1.9.2.1. 랜덤 포레스트)에 대한 설명없이 모델 집계 기술에 대한 다수 투표 대신 확률 론적 예측 을 사용 하는 것으로 보입니다 . 이유에 대한 명확한 설명이 있습니까? 또한 Random Forest bagging에 사용될 수있는 다양한 모델 집계 기술에 대한 좋은 논문이나 리뷰 기사가 있습니까? 감사!


2
비모수 적 군집화를위한 PyMC : 가우스 혼합의 매개 변수를 추정하기위한 Dirichlet 프로세스가 군집하지 못함
문제 설정 PyMC를 적용하려는 첫 번째 장난감 문제 중 하나는 비모수 적 군집입니다. 일부 데이터를 제공하고이를 가우스 혼합으로 모델링하고 군집 수와 각 군집의 평균 및 공분산을 배웁니다. 내가이 방법에 대해 알고있는 대부분의 내용은 2007 년경 Michael Jordan과 Yee Whye Teh의 비디오 강의 (스팀이 격렬 해지기 전에)와 Fonnesbeck 박사와 E. Chen의 …

1
ARIMA 모델의 관측치 48에서 혁신적인 특이 치를 어떻게 통합합니까?
데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


2
PyMC에서 두 개의 정규 분포에 대한 적합 모형
나는 시작하기 전에 더 많은 통계를 배우려고 노력하는 소프트웨어 엔지니어이기 때문에, 이것은 새로운 영역입니다. PyMC를 배우고 실제로 (실제로) 간단한 예제를 통해 작업했습니다. 내가 일할 수없는 한 가지 문제 (및 관련 예제를 찾을 수 없음)는 두 정규 분포에서 생성 된 데이터에 모델을 피팅하는 것입니다. 1000 개의 값이 있다고 가정합니다. a에서 생성 …
10 modeling  python  pymc 

2
Soliton 분포에 따라 숫자를 어떻게 생성합니까?
솔리톤 분포 세트 위에 이산 확률 분포 확률 질량 함수{ 1 , … , N}{1,…,N}\{1,\dots, N\} p ( 1 ) = 1엔,p ( k ) = 1k ( k - 1 )위한 K ∈ { 2 , ... , N}p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots, N\} 균일 한 난수 생성기가있는 Python에서 …

4
R 대 SciPy의 로그 정규 분포 적합
R을 사용하여 일련의 데이터를 가진 로그 정규 모델을 피팅했습니다. 결과 매개 변수는 다음과 같습니다. meanlog = 4.2991610 sdlog = 0.5511349 이 모델을 Scipy로 이전하고 싶습니다. Scipy를 사용하여 1과 3.1626716539637488e + 90의 모양과 스케일을 얻을 수있었습니다. 매우 다른 숫자입니다. 또한 meanlog 및 sdlog의 exp를 사용하려고했지만 기괴한 그래프를 계속 얻습니다. 나는 scipy에서 …
10 r  python  numpy  scipy 

3
최소한의 메모리를 사용하여 데이터를 훈련하는 가장 효율적인 방법은 무엇입니까?
이것은 내 훈련 데이터입니다 : 200,000 예제 x 10,000 기능. 내 훈련 데이터 매트릭스는-200,000 x 10,000입니다. 각 예제의 기능을 생성 할 때마다 모든 데이터 세트를 하나씩 저장하여 메모리 문제없이 플랫 파일로 저장했습니다. 그러나 이제 Milk , SVM light 또는 기타 기계 학습 알고리즘을 사용하면 모든 것이 학습 데이터 대신 하나씩 …

1
연속 및 이진 변수가 혼합 된 t-SNE
현재 t-SNE를 사용하여 고차원 데이터의 시각화를 조사하고 있습니다. 이진 및 연속 변수가 혼합 된 일부 데이터가 있으며 이진 데이터를 너무 쉽게 클러스터링하는 것처럼 보입니다. 물론 이것은 스케일 된 (0과 1 사이) 데이터에 대해 예상됩니다. 유클리드 거리는 이진 변수 사이에서 항상 가장 크거나 작습니다. t-SNE를 사용하여 혼합 이진 / 연속 데이터 …

4
열에 범주 형 데이터가 있는지 또는 파이썬을 사용하지 않는지 통계적으로 증명하는 방법
파이썬에서 모든 범주 형 변수를 찾아야하는 데이터 프레임이 있습니다. int유형도 범주 형일 수 있으므로 열 유형을 확인하는 것이 항상 작동하지는 않습니다 . 따라서 열이 범주인지 여부를 식별하는 올바른 가설 검정 방법을 찾는 데 도움을 요청합니다. 카이 제곱 테스트 아래에서 시도했지만 이것이 충분히 좋은지 확실하지 않습니다. import numpy as np data …

2
조정 랜드 지수 대 조정 상호 정보
클러스터링 성능을 평가하려고합니다. 메트릭스 에 대한 skiscit-learn 문서를 읽고있었습니다 . ARI와 AMI의 차이점을 이해하지 못합니다. 그들은 두 가지 다른 방식으로 동일한 일을하는 것 같습니다. 문서에서 인용 : 기본 진리 클래스 할당 labels_true 및 동일한 샘플 labels_pred에 대한 클러스터링 알고리즘 할당에 대한 지식을 감안할 때 조정 된 랜드 인덱스 는 순열을 …

4
1 개의 값에서 N 개의 독립 난수 생성기를 시드하는 가장 좋은 방법
내 프로그램에서 큰 데이터 세트를 샘플링하는 데 사용되는 자체 RNG로 N 개의 개별 스레드를 각각 실행해야합니다. 결과를 재현 할 수 있도록이 전체 프로세스를 단일 값으로 시드 할 수 있어야합니다. 각 인덱스의 시드를 순차적으로 늘리는 것으로 충분합니까? 현재 내가 사용 numpy의 RandomState메르 센 트위스터 의사 난수 생성기를 사용합니다. 아래 코드 스 …

3
Scikit Learn으로 기능 선택 후 필터링 된 기능 식별
다음은 Python의 기능 선택 방법 에 대한 코드입니다 . from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) 그러나 새로운 X (종속 변수-X_new)를 얻은 후이 새로운 업데이트 된 변수에서 어떤 변수가 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.