«python» 태그된 질문

프로그래밍 언어 Python과 관련된 데이터 과학 질문에 사용합니다. 일반적인 코딩 질문 (-> stackoverflow)을위한 것은 아닙니다.



2
누락 된 데이터를 처리해야하는 워크 플로우의 위치
매우 큰 데이터베이스 (여기서는 Vertica에서 SQL 및로 ) 에서 가져온 데이터 에서 기계 학습 모델 (내 경우에는 Python pandas및 sklearn패키지 사용) 을 작성하는 워크 플로우를 작성 중이며 pyodbc해당 프로세스의 중요한 단계는 누락 누락을 포함합니다. 예측 변수의 값. 이것은 단일 분석 또는 통계 플랫폼 (Python, R, Stata 등) 내에서 간단하지만 다중 …


3
불균형하고 이질적인 부정적인 배경을 가진 일류 차별 분류?
{protein} 서열을 특정 클래스 (Neuropeptide hormone 전구체)에 속하는지 분류하기 위해 기존의 감독 된 분류기를 개선하기 위해 노력하고 있습니다. 약 1,150 만 개의 단백질 서열의 배경 ( "알려지지 않은 / 나쁜 주석이 달린 배경")에 대해 약 1,150 개의 알려진 "양성"또는 다양한 속성으로 주석이 달린 약 10 만 개의 검토 된 관련 …

6
연속 변수가 거의없는 로그 변환을 수행 한 이유는 무엇입니까?
분류 문제를 겪고 있으며 많은 사람들의 코드와 자습서를 읽었습니다. 내가 발견 한 것은 많은 사람들이 걸릴 것입니다 np.log또는 log연속 같은 변수의 loan_amount또는 applicant_income등 나는 그 이유를 이해하고 싶습니다. 모델 예측 정확도를 향상시키는 데 도움이됩니까? 필수입니까? 또는 그 뒤에 논리가 있습니까? 가능하면 설명을 제공해주세요. 감사합니다.

3
Keras의 스트리밍 테스트 데이터에서 predict_generator로 예측을 얻는 방법은 무엇입니까?
에서 Keras 처음부터 훈련 convnets에 블로그 , 코드 쇼는 네트워크 교육 및 검증 데이터를 실행할 수 있습니다. 테스트 데이터는 어떻습니까? 유효성 검사 데이터가 테스트 데이터와 동일합니까? train 및 validation 폴더와 비슷한 줄에 별도의 테스트 폴더가있는 경우 테스트 데이터에 대한 혼동 행렬을 얻는 방법은 무엇입니까? 나는 이것을하기 위해 scikit learn 또는 …


5
문장 유사성 예측
다음과 같은 문제를 해결하려고합니다. 데이터 세트로 문장 세트가 있고 새로운 문장을 입력하고 새로운 문장이 데이터 세트에서 가장 유사한 문장을 찾고 싶습니다. 예를 들면 다음과 같습니다. 새로운 문장 : " I opened a new mailbox" 데이터 세트에 기반한 예측 : Sentence | Similarity A dog ate poop 0% A mailbox is …

2
왜 열차 및 테스트 데이터의 변수가 대문자를 사용하여 정의됩니까 (파이썬)?
이 질문이이 사이트에서 가장 적합하기를 바랍니다. Python에서 일반적으로 클래스 이름은 대문자를 첫 문자로 사용하여 정의됩니다 (예 : class Vehicle: ... 그러나, 기계 학습 분야에서, 종종는 훈련과 테스트 데이터는 다음과 같이 정의 X하고 Y-하지 x와 y. 예를 들어, Keras에서이 튜토리얼을 읽고 있지만 Xand Y를 변수로 사용합니다 . from sklearn import datasets …
15 python  dataset 

2
SelectKBest는 어떻게 작동합니까?
이 자습서를보고 있습니다 : https://www.dataquest.io/mission/75/improving-your-submission 섹션 8에서 최상의 기능을 찾으면 다음 코드가 표시됩니다. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values for …

1
계층화 된 샘플링이 필요합니까 (랜덤 포레스트, Python)?
파이썬을 사용하여 불균형 데이터 세트에서 임의의 포리스트 모델을 실행합니다 (대상 변수는 이진 클래스였습니다). 교육 및 테스트 데이터 세트를 분할 할 때 계층화 된 샘플링을 사용할지 (표시된 코드와 같은) 사용하지 않을지 고민했습니다. 지금까지 프로젝트에서 계층화 된 사례가 더 높은 모델 성능으로 이어질 것으로 관찰했습니다. 그러나 현재 데이터 세트와 대상 클래스의 분포가 …

2
불균형 데이터에 대한 이진 분류 모델
다음 사양의 데이터 세트가 있습니다. 2,821 개의 양성으로 193,176 개의 샘플로 훈련 데이터 세트 673 개의 양성으로 82,887 개의 샘플로 테스트 데이터 세트 10 가지 기능이 있습니다. 이진 분류 (0 또는 1)를 수행하고 싶습니다. 내가 겪고있는 문제는 데이터가 매우 불균형하다는 것입니다. 일부 기능 엔지니어링과 함께 데이터를 정규화하고 확장 한 후 …

5
최신 R 및 / 또는 Python 라이브러리는 SQL을 더 이상 사용하지 않습니까?
데이터 처리에서 정리, 녹이는 것까지 SQL Server가 모든 작업의 ​​중추 인 사무실에서 근무하고 있습니다. 저의 동료는 들어오는 데이터를 표준화하여 보고서, 시각화 및 분석 프로젝트에서 사용할 수 있도록 복잡한 함수 및 저장 프로 시저를 작성하여 들어오는 데이터를 체계적으로 처리하는 데 전문적입니다. 여기서 시작하기 전에 가장 기본적인 쿼리를 작성하는 것 외에는 SQL에 …
14 python  r  data-cleaning  data  sql 

1
파이썬에서 맵의 히트 맵
Mode Analytics에는 멋진 히트 맵 기능이 있습니다 ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). 그러나지도를 비교하는 데 도움이되지 않습니다 (보고서 당 하나만). 그들이 허용하는 것은 랩핑 된 파이썬 노트북에 데이터를 쉽게 가져올 수 있다는 것입니다. 그런 다음 파이썬의 모든 이미지를 보고서에 쉽게 추가 할 수 있습니다. 그래서 내 질문은 : 파이썬의 실제 맵에서 히트 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.