데이터 과학 python

2

N 개의 샘플이있는 데이터 세트를 사용하여 확률 적 경사 하강 회귀 알고리즘을 훈련시키고 싶다고 가정 해 봅시다. 데이터 세트의 크기가 고정되어 있으므로 데이터를 T 번 재사용합니다. 각 반복 또는 "에포크"에서 전체 트레이닝 세트를 무작위로 재정렬 한 후 각 트레이닝 샘플을 정확히 한 번 사용합니다. 내 구현은 Python과 Numpy를 기반으로합니다. 따라서 …

10 python gradient-descent regression

2

신경망 디버깅

scipy.optimize.minimize (Conjugate gradient) 최적화 기능을 사용하여 파이썬에서 인공 신경망을 만들었습니다. 그라디언트 확인을 구현하고 모든 것을 다시 확인했으며 올바르게 작동하는지 확신합니다. 나는 그것을 몇 번 실행했고 '최적화가 성공적으로 종료되었습니다'에 도달했지만 숨겨진 레이어 수를 늘리면 성공적으로 종료 된 후 가설 비용이 증가합니다 (다른 모든 항목은 동일하게 유지됨). 직관적으로 데이터를 더 잘 맞출 …

10 machine-learning python neural-network

1

Keras 모델이 배경을 인식하는 방법을 배우는 이유는 무엇입니까?

사전 훈련 된 모델을 사용하여 Pascal VOC2012에서 Deeplabv3 + 의이 Keras 구현 을 훈련하려고합니다 (이 데이터 세트에서도 훈련 됨). 정확도가 1.0으로 빠르게 수렴되는 이상한 결과를 얻었습니다. 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 - val_loss: 19385.8555 - val_acc: 0.4818 Epoch 2/3 5/5 [==============================] - 77s 15s/step …

9 python deep-learning keras tensorflow

1

멀티 클래스 데이터 세트에서 분류가 잘못되는 불균형 데이터

39 개의 카테고리 / 클래스와 850 만 개의 레코드가있는 텍스트 분류 작업을하고 있습니다. (향후 데이터 및 카테고리가 증가 할 것입니다). 내 데이터의 구조 또는 형식은 다음과 같습니다. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 …

9 machine-learning python classification scikit-learn multiclass-classification

1

별도의 파이썬 프로세스를 통해 HDF5를 안정적으로 쓰고 동시에 읽을 수 있습니까?

시간이 지남에 따라 라이브 데이터를이 프로젝트의 전체 데이터 세트가 포함 된 단일 HDF5 파일로 기록하는 스크립트를 작성 중입니다. Python 3.6으로 작업 중이며 click데이터를 수집하는 데 사용하는 명령 줄 도구를 만들기로 결정했습니다 . 데이터 수집 스크립트가 HDF5 파일에 쓰고 있는데 아직 ML 응용 프로그램이 동일한 파일에서 데이터를 읽으려고하면 어떻게 될까요? HDF5 …

9 python dataset

2

학습률이 신경 네트워크의 가중치를 급등시키는 이유는 무엇입니까?

나는 약간의 연구를 위해 간단한 신경망을 작성하기 위해 tensorflow를 사용하고 있으며 훈련하는 동안 'nan'무게에 많은 문제가있었습니다. 최적화 프로그램 변경, 손실 변경, 데이터 크기 등과 같은 다양한 솔루션을 시도했지만 아무 소용이 없습니다. 마지막으로, 학습률의 변화가 나의 체중에 믿을 수없는 차이를 가져 왔다는 것을 알았습니다. 학습 속도 .001 (정말 보수적이라고 생각)을 사용하면 …

9 machine-learning python tensorflow optimization gradient-descent

3

Scikit-Learn의 Random Forest Regressor에서 가중치 (수식) 내보내기

Python (Random Forest Regressor)의 Scikit Learn을 사용하여 예측 모델을 훈련했으며 수동 예측을위한 Excel 도구를 만들기 위해 각 기능의 가중치를 추출하고 싶습니다. 내가 찾은 유일한 것은 model.feature_importances_도움이되지 않습니다. 그것을 달성 할 수있는 방법이 있습니까? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( …

9 python predictive-modeling regression random-forest scikit-learn

7

다중 레이블 분류를 위해 혼동 행렬을 계산할 수있는 Python 라이브러리

다중 레이블 분류를 위해 혼동 행렬을 계산할 수있는 Python 라이브러리를 찾고 있습니다 . 참고 사항 : scikit-learn 은 혼동 행렬에 대해 다중 레이블을 지원 하지 않습니다 ) 멀티 클래스와 멀티 라벨 문제의 차이점

9 python software-recommendation multilabel-classification

1

Pandas 데이터 프레임에서 다중 값 범주 변수를 이진 인코딩하는 방법은 무엇입니까?

특정 열에 대해 여러 값을 가진 다음 데이터 프레임이 있다고 가정하십시오. categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] 어떻게 이런 테이블을 얻을 수 있습니까? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 …

9 python pandas

2

파이썬에서 보완적인 Naive Bayes를 구현하고 있습니까?

문제 범죄 데이터의 레이블이 지정된 데이터 세트에서 Naive 베이를 사용하려고 시도했지만 실제로는 좋지 않은 결과를 얻었습니다 (7 % 정확도). Naive Bayes는 내가 사용했던 다른 알고리즘보다 훨씬 빠르게 실행되므로 점수가 왜 그렇게 낮은 지 알아 내고 싶었습니다. 연구 읽은 후 Naive bayes는 균형 잡힌 데이터 세트와 함께 사용해야한다는 것을 알았습니다. 주파수가 …

9 machine-learning classification python naive-bayes-classifier

2

Latent Dirichlet Allocation에서 파생 된 주제를 사용한 문서 클러스터링

프로젝트에 Latent Dirichlet Allocation을 사용하고 gensim 라이브러리와 함께 Python을 사용하고 있습니다. 주제를 찾은 후 k-means와 같은 알고리즘을 사용하여 문서를 클러스터링하고 싶습니다 (이상적으로는 클러스터를 겹치기에 좋은 것을 사용하여 권장 사항을 환영합니다). 주제를 얻었지만 다음과 같은 형식입니다. 0.041 * Minister + 0.041 * Key + 0.041 * moments + 0.041 * 논란 …

9 python clustering lda

2

내 훈련 세트에 음의 y 값이 없을 때 그라디언트 증폭 회귀 분석에서 음수 값을 예측하는 이유는 무엇입니까?

내가 나무의 수를 증가로 scikit 학습 의를 GradientBoostingRegressor, 나는 부정적인 값 내 훈련이나 설정을 테스트에 없다하더라도, 더 부정적인 예측을 얻을. 나는 약 10 가지 기능을 가지고 있으며, 대부분 바이너리입니다. 내가 튜닝 한 일부 매개 변수는 다음과 같습니다. 나무 / 반복 횟수; 학습 깊이; 학습 속도. 음수 값의 백분율은 ~ 2 …

8 machine-learning python algorithms scikit-learn kaggle

2

CNN 모델에서 더 많은 레이어를 사용할 때 메모리 오류

내 Dell 코어 i7-16GB RAM-4gb 960m GPU 랩톱에서 3d CNN을 사용하여 폐 CT 이미지를 분류하는 프로젝트를 진행하고 있습니다. CPU 버전의 tensorflow를 사용하고 있습니다. 이미지는 numpy 배열 크기 (25,50,50)로 준비됩니다. 내 CNN 모델에는 2 개의 conv 레이어, 2 개의 maxpool 레이어, 1 개의 FC 레이어 및 출력 레이어가있었습니다. 이 아키텍처를 통해 …

7 python tensorflow cnn

«python» 태그된 질문