«python» 태그된 질문

프로그래밍 언어 Python과 관련된 데이터 과학 질문에 사용합니다. 일반적인 코딩 질문 (-> stackoverflow)을위한 것은 아닙니다.


8
scikit_learn 모델에서 fit과 fit_transform의 차이점은 무엇입니까?
저는 데이터 과학 에 익숙 하지 않으며 scikit-learn의 방법 fit과 차이점을 이해하지 못합니다 fit_transform. 왜 우리가 왜 데이터를 변환해야하는지 설명 할 수 있습니까? 훈련 데이터에 모델을 맞추고 테스트 데이터로 변환하는 것은 무엇을 의미합니까? 예를 들어 범주 형 변수를 학습에서 숫자로 변환하고 데이터를 테스트하기 위해 새 기능 세트를 변환하는 것을 의미합니까?

15
기계 학습을위한 Python vs R
학문적 목적으로 기계 학습 응용 프로그램 을 개발하기 시작했습니다 . 나는 현재 R을 사용 하고 있으며 스스로 훈련하고 있습니다. 그러나 많은 곳에서 사람들이 Python을 사용하는 것을 보았습니다 . 사람들은 학계와 산업에서 무엇을 사용하며 권장 사항은 무엇입니까?

11
scikit learn을 사용하는 SVM은 끝없이 실행되며 실행을 완료하지 않습니다
595605 개의 행과 5 개의 열 (기능)이있는 교육 데이터 세트와 397070 개의 행이있는 테스트 데이터 세트에서 scikit learn (python)을 사용하여 SVR을 실행하려고합니다. 데이터는 사전 처리되어 정규화되었습니다. 테스트 예제를 성공적으로 실행할 수는 있지만 내 데이터 세트를 사용하여 실행하고 1 시간 이상 동안 실행할 수 있지만 여전히 프로그램의 출력 또는 종료를 볼 …

1
팬더에서 isna ()와 isnull ()의 차이점
나는 팬더를 꽤 오랫동안 사용 해왔다. 그러나 팬더 isna()와 isnull()팬더 의 차이점은 무엇인지 이해하지 못합니다 . 그리고 더 중요한 것은 데이터 프레임에서 결 측값을 식별하는 데 사용할 것입니다. 값이 na또는 로 감지되는 방법의 기본적인 기본 차이점은 무엇입니까 null?

6
의사 결정 트리 / 임의의 포리스트에있는 기능인 문자열
의사 결정 트리 / 임의의 응용 프로그램에서 일부 문제가 있습니다. 숫자와 문자열 (예 : 국가 이름)을 기능으로 갖는 문제를 해결하려고합니다. 이제 라이브러리 scikit-learn 은 숫자를 매개 변수로 사용하지만 문자열을 주입하고 많은 지식을 가지고 싶습니다. 그러한 시나리오를 어떻게 처리합니까? 파이썬의 해싱과 같은 메커니즘으로 문자열을 숫자로 변환 할 수 있습니다. 그러나 의사 …

8
파이썬에서 오픈 소스 이상 탐지
문제 배경 : IT 모니터링 공간에서 찾은 것과 비슷한 로그 파일이 포함 된 프로젝트를 진행하고 있습니다 (IT 공간을 가장 잘 이해하고 있음). 이 로그 파일은 시계열 데이터이며 다양한 매개 변수의 수백 / 수천 행으로 구성됩니다. 각 매개 변수는 숫자 (float)이며 각 시점에 대해 사소한 / 오류가없는 값이 있습니다. 내 임무는 …

2
Keras에서 다른 길이의 예제를 사용하여 RNN 교육
RNN에 대해 배우려고 노력 중이며 Keras를 사용하고 있습니다. 바닐라 RNN 및 LSTM 레이어의 기본 전제를 ​​이해하고 있지만 교육을위한 특정 기술 요점을 이해하는 데 어려움을 겪고 있습니다. 에서 keras 문서 , 그것은 RNN 층에 입력이 모양이 있어야합니다 말한다 (batch_size, timesteps, input_dim). 이것은 모든 훈련 예제가 고정 된 시퀀스 길이, 즉timesteps . …
60 python  keras  rnn  training 

8
클러스터링 지리적 위치 좌표 (lat, long pairs)
지리적 위치 클러스터링에 대한 올바른 접근 방법 및 클러스터링 알고리즘은 무엇입니까? 다음 코드를 사용하여 지리적 위치 좌표를 클러스터링합니다. import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], …

9
Python을 사용하여 재현 가능한 데이터 과학을위한 도구 및 프로토콜
Python을 사용하여 데이터 과학 프로젝트를 진행하고 있습니다. 이 프로젝트에는 여러 단계가 있습니다. 각 단계는 Python 스크립트, 보조 데이터, 구성 및 매개 변수를 사용하고 다른 데이터 세트를 작성하는 데이터 세트로 구성됩니다. 코드를 git에 저장하므로 해당 부분을 다룹니다. 다음에 대해 듣고 싶습니다 : 데이터 버전 관리 도구. 무대와 실험을 재현 할 수있는 …

4
신경망 : 어느 비용 함수를 사용해야합니까?
주로 신경망을 이용한 실험에 TensorFlow 를 사용하고 있습니다. 지금은 꽤 많은 실험 (XOR-Problem, MNIST, 일부 회귀 분석 등)을 수행했지만 전체적으로 초보자로 간주 될 수 있기 때문에 특정 문제에 대해 "정확한"비용 함수를 선택하는 데 어려움을 겪고 있습니다. TensorFlow에 오기 전에 파이썬 과 NumPy를 사용 하여 완전히 연결된 MLP와 일부 반복 네트워크를 …

7
ValueError : 입력에 NaN, 무한대 또는 dtype ( 'float32')에 비해 너무 큰 값이 있습니다
RandomForest 모델을 사용하여 테스트 데이터를 예측할 때 ValueError가 발생했습니다. 내 코드 : clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) 오류: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). 테스트 데이터 세트에서 잘못된 값을 어떻게 찾습니까? 또한 이러한 레코드를 …

3
팬더와 상관 행렬의 계산 및 시각화
여러 항목이있는 팬더 데이터 프레임이 있으며 일부 유형의 상점 수입 간의 상관 관계를 계산하려고합니다. 수입 데이터, 활동 영역 분류 (극장, 옷가게, 음식 ...) 및 기타 데이터가있는 여러 상점이 있습니다. 나는 새로운 데이터 프레임을 만들고 같은 카테고리에 속하는 모든 종류의 상점의 수입으로 열을 삽입하려고 시도했으며 반환 데이터 프레임에는 첫 번째 열만 …

5
팬더로 분석하기 위해 20GB 파일 열기
현재 머신 러닝 목적으로 팬더와 파이썬으로 파일을 열려고합니다. 데이터 프레임에 모두 넣는 것이 이상적입니다. 이제 파일 크기는 18GB이고 RAM은 32GB이지만 메모리 오류가 계속 발생합니다. 당신의 경험에서 가능합니까? 이 문제를 해결하는 더 좋은 방법을 모르십니까? (하이브 테이블? RAM의 크기를 64로 늘리십시오. 데이터베이스를 만들고 파이썬에서 액세스하십시오)

3
케 라스의 멀티 GPU
여러 GPU에서 교육을 분할하기 위해 keras 라이브러리 (또는 tensorflow)에서 어떻게 프로그래밍 할 수 있습니까? 8 개의 GPU가있는 Amazon ec2 인스턴스에 있고 이들 모두를 사용하여 더 빨리 훈련하고 싶지만 코드는 단일 CPU 또는 GPU 전용이라고 가정 해 봅시다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.