데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A


4
클러스터링하기 전에 데이터를 표준화해야합니까?
클러스터 전에 데이터를 표준화해야합니까? 의 예에서 scikit learnDBSCAN에 대한, 여기에 그들은 라인에서이 작업을 수행 : X = StandardScaler().fit_transform(X) 그러나 왜 필요한지 이해하지 못합니다. 결국 클러스터링은 데이터의 특정 분포를 가정하지 않습니다. 감독되지 않은 학습 방법이므로 목표는 데이터를 탐색하는 것입니다. 왜 데이터를 변환해야합니까?

3
K는 팔꿈치 방법, BIC, 분산 설명 및 실루엣으로 K를 선택하는 일관성없는 동작을 의미합니다.
K- 평균으로 90 개의 특징을 가진 일부 벡터를 클러스터하려고합니다. 이 알고리즘은 클러스터의 수를 묻기 때문에 좋은 수학으로 내 선택을 확인하고 싶습니다. 8 개에서 10 개의 클러스터가있을 것으로 예상합니다. 기능은 Z- 점수 스케일입니다. 팔꿈치 방법 및 분산 설명 from scipy.spatial.distance import cdist, pdist from sklearn.cluster import KMeans K = range(1,50) KM …

7
고차원 데이터 시각화의 목적?
T-SNE, isomap, PCA, Supervised PCA 등과 같은 고차원 데이터 세트를 시각화하기위한 많은 기술이 있습니다. 그리고 우리는 2D 또는 3D 공간으로 데이터를 투사하는 동작을 수행하므로 "예쁜 그림이 있습니다. ". 이러한 포함 (매니 폴드 학습) 방법 중 일부가 여기 에 설명되어 있습니다 . 그러나이 "예쁜 그림"은 실제로 의미가 있습니까? 이 임베디드 공간을 …


6
월 또는 시간과 같은 기능을 범주 또는 숫자로 인코딩합니까?
기계 학습 모델에서 월 및 시간과 같은 기능을 요소 또는 숫자로 인코딩하는 것이 더 낫습니까? 한편으로, 나는 시간이 앞으로 진행되는 과정이기 때문에 숫자 인코딩이 합리적이라고 생각하지만 (5 개월은 6 개월이 뒤 따름), 반면에 순환 인코딩으로 인해 범주 형 인코딩이 더 합리적이라고 생각합니다 연도 및 일수 (12 번째 달 다음에 첫 …

4
XGBoost는 다중 공선 성을 자체적으로 처리합니까?
현재 21 개의 기능 (약 150 개의 기능 목록에서 선택)이있는 데이터 세트에서 XGBoost를 사용하고 있으며 ~ 98 개의 기능을 얻기 위해 핫 코드로 코딩했습니다. 이러한 98 가지 기능 중 일부는 예를 들어 중복됩니다. 변수 (기능) 도 및 .에이에이A비에이비에이\frac{B}{A}기음에이기음에이\frac{C}{A} 내 질문은 : 어떻게 ( 만약? ) 의사 결정 트리 핸들 다중 …

2
GridSearch의 출력을 사용하는 방법?
저는 현재 Python 및 Scikit과 함께 분류 목적으로 배우고 GridSearch에 대해 약간의 독서를하고 있습니다. 최상의 결과를 얻도록 견적 매개 변수를 최적화하는 데 좋은 방법이라고 생각했습니다. 내 방법론은 다음과 같습니다. 내 데이터를 훈련 / 테스트로 나눕니다. 5Fold Cross 검증과 함께 GridSearch를 사용하여 내 추정기 (Random Forest, Gradient Boost, SVC 등)를 훈련하고 …


3
변압기 모델에서 위치 인코딩은 무엇입니까?
나는 ML을 처음 접했고 이것이 나의 첫 번째 질문이므로 내 질문이 어리 석다면 죄송합니다. 나는 종이를 읽고 이해하려고 노력하고 있습니다. 주의는 당신이 필요한 전부 이며 그 안에는 그림이 있습니다. 위치 인코딩 이 무엇인지 모르겠습니다 . 유투브 동영상을 들으면서 단어의 의미와 위치를 모두 포함하고 있으며 관련이 있음을 알게되었습니다.s i n ( …

3
입력 데이터의 기능 변환
나는이 OTTO Kaggle 챌린지 에 대한 솔루션에 대해 읽고 있었고 첫 번째 장소 솔루션은 입력 데이터 X에 대해 몇 가지 변환을 사용하는 것 같습니다 (예 : Log (X + 1), sqrt (X + 3/8) 등). 다양한 분류 자에게 어떤 종류의 변환을 적용 할 것인지에 대한 일반 지침? 평균-평균 및 최소-최대 …


6
팀 내에서 Jupyter 전자 필기장 공유
다음과 같은 방식으로 데이터 과학 팀을 지원할 수있는 서버를 설정하고 싶습니다. Jupyter 노트북을 저장, 버전 관리, 공유 및 실행하기위한 중심 지점이됩니다. 원하는 속성 : 다른 사용자가 서버에 액세스하여 자신이나 다른 팀 구성원이 저장 한 노트북을 열고 실행할 수 있습니다. 여기서 흥미로운 질문은 사용자 X가 사용자 Y가 작성한 노트북에서 셀을 실행하면 …

3
Word2Vec에 대한 더 나은 입력은 무엇입니까?
이것은 일반적인 NLP 질문과 비슷합니다. Word2Vec을 포함하는 단어를 훈련시키기위한 적절한 입력은 무엇입니까? 기사에 속하는 모든 문장이 모음에서 별도의 문서 여야합니까? 아니면 각 기사가 해당 말뭉치의 문서 여야합니까? 이것은 python과 gensim을 사용한 예제입니다. 코퍼스는 문장으로 나뉩니다. SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", …

6
컨볼 루션 신경망이 작동하는 이유는 무엇입니까?
나는 종종 사람들이 왜 회선 신경망이 여전히 잘 이해되지 않는다고 말하는 것을 들었습니다. Convolutional Neural Networks가 계층을 올라갈 때 점점 더 정교한 기능을 배우는 이유는 무엇입니까? 그로 인해 이러한 기능 스택이 만들어졌으며 다른 유형의 심층 신경망에도 적용됩니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.