데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

1
그라디언트 부스팅 트리 : "변수가 많을수록 좋습니다"?
XGBoost 의 튜토리얼 에서 각 트리가 커지면 모든 변수가 스캔되어 노드를 분할하도록 선택되고 최대 게인 분할을 가진 변수가 선택됩니다. 따라서 제 질문은 노이즈 세트를 데이터 세트에 추가하면 이러한 노이즈 변수가 변수 선택에 영향을 미칠까요 (각 트리가 성장할 때)? 내 논리는 이러한 노이즈 변수가 최대 게인 분할을 전혀 제공하지 않기 때문에 …

4
머신 러닝 및 딥 러닝
"Machine Learning"과 "Deep Learning"이라는 용어의 차이점으로 인해 약간 혼란스러워합니다. 나는 그것을 구글 검색하고 많은 기사를 읽었지만 여전히 나에게 명확하지 않습니다. Tom Mitchell의 기계 학습에 대한 알려진 정의는 다음과 같습니다. 컴퓨터 프로그램은 경험으로부터 배울라고 E 일부 작업 클래스에 대한 T 및 성능 계수 P 의 태스크에서 성능 경우, T는 에 의해 …

4
성능 측정 : 리콜이라고하는 이유는 무엇입니까?
정밀도 는 관련된 검색된 인스턴스의 비율이며 리콜 (감도라고도 함)은 검색되는 관련 인스턴스의 비율입니다. 나는 그들의 의미를 알고 있지만 왜 그것이 리콜 이라고 불리는 지 모르겠습니다 . 나는 영어를 모국어가 아닙니다. 기억한다는 것은 기억한다는 것을 알고,이 의미와이 개념의 관련성을 모른다는 것입니다! 커버리지 는 더 많은 인스턴스가 포함 된 것을 보여주기 때문에 …

4
데이터 세트 크기에 따른 과적 합 / 비 적합
아래 그래프에서 x 축 => 데이터 세트 크기 y 축 => 교차 검증 점수 빨간 선 은 훈련 데이터입니다 녹색 선 은 데이터 테스트 용입니다. 내가 말하는 겁니다하는 튜토리얼에서는, 저자는 그 점을 말한다 곳 레드 라인 과 그린 라인 수단 중복, 더 많은 데이터를 수집해도 일반화 성능이 향상되지는 않으며 데이터가 …

1
XGBoost 선형 회귀 출력이 잘못되었습니다
나는 XGBoost의 초보자이므로 내 무지를 용서하십시오. 파이썬 코드는 다음과 같습니다. import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred 출력 : [ 24.126194 24.126194] 보시다시피 …


1
SVM의 정규화 매개 변수에 대한 직감
SVM에서 정규화 매개 변수를 변경하면 분리 할 수없는 데이터 집합의 결정 경계가 어떻게 변경됩니까? 제한적인 동작 (대규모 및 소규모 정규화)에 대한 시각적 답변 및 / 또는 해설이 도움이 될 것입니다.
11 svm 

6
Excel이 데이터 과학에 충분합니까?
저는 R 프로그래밍 언어를 사용하여 데이터 과학에 대한 입문 과정을 가르치기 위해 준비 중입니다. 제 관객은 비즈니스 과목을 전공하는 학부생입니다. 일반적인 비즈니스 학부생에게는 컴퓨터 프로그래밍 경험이 없지만 Excel을 사용하는 몇 가지 수업을 들었습니다. 개인적으로 저는 컴퓨터 과학을 전공했기 때문에 R (또는 다른 프로그래밍 언어)에 매우 익숙합니다. 그러나 나는 많은 학생들이 …


2
선형 회귀 및 데이터 스케일링
다음 그림은 선형 회귀로 얻은 계수를 보여줍니다 ( mpg목표 변수로, 다른 모든 변수는 예측 변수로). 데이터 를 스케일링하거나 스케일링하지 않은 mtcars 데이터 세트 ( here 및 here )의 경우 : 이 결과를 어떻게 해석합니까? 변수 hp및 disp데이터의 크기가 조절 된 경우에만 중요합니다. 인가 am와 qsec동등하게 중요이거나 am보다 더 중요 qsec? …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
고정되지 않은 범주 형 데이터를 사용하여 분류를 수행하려면 어떻게해야합니까?
범주 형 데이터와 숫자 형 데이터 모두에 분류 문제가 있습니다. 내가 직면하고있는 문제는 내 범주 데이터가 고정되어 있지 않다는 것입니다. 즉, 예측하려는 레이블을 가진 새로운 후보자가 미리 관찰되지 않은 새로운 범주를 가질 수 있습니다. 예를 들어 내 범주 데이터가 있다면, sex, 유일하게 가능한 라벨이 없을 것 female, male그리고 other, 더 …

3
검증 손실 또는 정확성에 대한 조기 중단?
현재 신경망을 훈련 중이며 조기 중지 기준을 구현하는 데 사용할 유효성, 즉 유효성 검사 손실 또는 유효성 검사 세트에서 계산 된 정확도 / f1score / auc / 무엇과 같은 메트릭을 결정할 수 없습니다. 연구에서 두 가지 관점을 모두 지키는 기사를 찾았습니다. Keras는 유효성 검사 손실을 기본값으로하는 것처럼 보이지만 반대 접근법 …

3
XGboost-모델 별 선택
XGboost 를 사용하여 보험 청구에 대한 2 클래스 대상 변수를 예측하고 있습니다. 다른 데이터 세트에서 실행되는 모델 (교차 유효성 검사, 하이퍼 매개 변수 조정 등의 교육)이 있습니다. 내 질문은 : 주어진 주장 이 왜 한 클래스에 영향을 미쳤 는지 알 수있는 방법이 있습니까 ( 예 : 모델이 선택한 선택을 설명하는 …
10 xgboost 

1
제스처 인식 시스템에 RNN (LSTM) 사용
ASL (American Sign Language) 제스처 를 분류하기위한 제스처 인식 시스템을 구축하려고합니다 . 따라서 입력은 카메라 또는 비디오 파일에서 프레임 시퀀스로 가정되며 시퀀스를 감지하여 해당하는 것에 매핑합니다 수업 (수면, 도움, 식사, 달리기 등) 문제는 이미 비슷한 시스템을 구축했지만 정적 이미지 (모션 포함 되지 않음)의 경우 손이 많이 움직이지 않고 CNN 을 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.