데이터 과학

1

XGBoost 의 튜토리얼 에서 각 트리가 커지면 모든 변수가 스캔되어 노드를 분할하도록 선택되고 최대 게인 분할을 가진 변수가 선택됩니다. 따라서 제 질문은 노이즈 세트를 데이터 세트에 추가하면 이러한 노이즈 변수가 변수 선택에 영향을 미칠까요 (각 트리가 성장할 때)? 내 논리는 이러한 노이즈 변수가 최대 게인 분할을 전혀 제공하지 않기 때문에 …

11 xgboost self-study

4

머신 러닝 및 딥 러닝

"Machine Learning"과 "Deep Learning"이라는 용어의 차이점으로 인해 약간 혼란스러워합니다. 나는 그것을 구글 검색하고 많은 기사를 읽었지만 여전히 나에게 명확하지 않습니다. Tom Mitchell의 기계 학습에 대한 알려진 정의는 다음과 같습니다. 컴퓨터 프로그램은 경험으로부터 배울라고 E 일부 작업 클래스에 대한 T 및 성능 계수 P 의 태스크에서 성능 경우, T는 에 의해 …

11 machine-learning deep-learning

4

성능 측정 : 리콜이라고하는 이유는 무엇입니까?

정밀도 는 관련된 검색된 인스턴스의 비율이며 리콜 (감도라고도 함)은 검색되는 관련 인스턴스의 비율입니다. 나는 그들의 의미를 알고 있지만 왜 그것이 리콜 이라고 불리는 지 모르겠습니다 . 나는 영어를 모국어가 아닙니다. 기억한다는 것은 기억한다는 것을 알고,이 의미와이 개념의 관련성을 모른다는 것입니다! 커버리지 는 더 많은 인스턴스가 포함 된 것을 보여주기 때문에 …

11 performance terminology

4

데이터 세트 크기에 따른 과적 합 / 비 적합

아래 그래프에서 x 축 => 데이터 세트 크기 y 축 => 교차 검증 점수 빨간 선 은 훈련 데이터입니다 녹색 선 은 데이터 테스트 용입니다. 내가 말하는 겁니다하는 튜토리얼에서는, 저자는 그 점을 말한다 곳 레드 라인 과 그린 라인 수단 중복, 더 많은 데이터를 수집해도 일반화 성능이 향상되지는 않으며 데이터가 …

11 machine-learning cross-validation

1

XGBoost 선형 회귀 출력이 잘못되었습니다

나는 XGBoost의 초보자이므로 내 무지를 용서하십시오. 파이썬 코드는 다음과 같습니다. import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred 출력 : [ 24.126194 24.126194] 보시다시피 …

11 python linear-regression xgboost

1

비선형으로 분리 가능한 데이터에 대해 선형 SVM을 교육하면 어떻게됩니까?

비선형으로 분리 가능한 데이터에 대해 기본 지원 벡터 머신 (선형 커널 및 소프트 마진 없음)을 훈련하면 어떻게됩니까? 최적화 문제는 실현 가능하지 않으므로 최소화 알고리즘은 무엇을 반환합니까?

11 machine-learning svm

1

SVM의 정규화 매개 변수에 대한 직감

SVM에서 정규화 매개 변수를 변경하면 분리 할 수없는 데이터 집합의 결정 경계가 어떻게 변경됩니까? 제한적인 동작 (대규모 및 소규모 정규화)에 대한 시각적 답변 및 / 또는 해설이 도움이 될 것입니다.

11 svm

6

Excel이 데이터 과학에 충분합니까?

저는 R 프로그래밍 언어를 사용하여 데이터 과학에 대한 입문 과정을 가르치기 위해 준비 중입니다. 제 관객은 비즈니스 과목을 전공하는 학부생입니다. 일반적인 비즈니스 학부생에게는 컴퓨터 프로그래밍 경험이 없지만 Excel을 사용하는 몇 가지 수업을 들었습니다. 개인적으로 저는 컴퓨터 과학을 전공했기 때문에 R (또는 다른 프로그래밍 언어)에 매우 익숙합니다. 그러나 나는 많은 학생들이 …

10 programming excel

1

백프로 프 동안 CNN의 필터 중량을 변경하지 않는 효과

역 전파 동안 CNN의 필터 가중치를 변경하지 않으면 어떤 효과가 있습니까? MNIST 데이터 세트를 학습하는 동안 완전히 연결된 레이어 가중치 만 변경했지만 여전히 99 %의 정확도를 달성했습니다.

10 machine-learning cnn mnist

2

선형 회귀 및 데이터 스케일링

다음 그림은 선형 회귀로 얻은 계수를 보여줍니다 ( mpg목표 변수로, 다른 모든 변수는 예측 변수로). 데이터 를 스케일링하거나 스케일링하지 않은 mtcars 데이터 세트 ( here 및 here )의 경우 : 이 결과를 어떻게 해석합니까? 변수 hp및 disp데이터의 크기가 조절 된 경우에만 중요합니다. 인가 am와 qsec동등하게 중요이거나 am보다 더 중요 qsec? …

10 feature-selection linear-regression feature-scaling

3

과학 컴퓨팅을위한 최고의 언어

폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

고정되지 않은 범주 형 데이터를 사용하여 분류를 수행하려면 어떻게해야합니까?

범주 형 데이터와 숫자 형 데이터 모두에 분류 문제가 있습니다. 내가 직면하고있는 문제는 내 범주 데이터가 고정되어 있지 않다는 것입니다. 즉, 예측하려는 레이블을 가진 새로운 후보자가 미리 관찰되지 않은 새로운 범주를 가질 수 있습니다. 예를 들어 내 범주 데이터가 있다면, sex, 유일하게 가능한 라벨이 없을 것 female, male그리고 other, 더 …

10 machine-learning classification categorical-data

3

검증 손실 또는 정확성에 대한 조기 중단?

현재 신경망을 훈련 중이며 조기 중지 기준을 구현하는 데 사용할 유효성, 즉 유효성 검사 손실 또는 유효성 검사 세트에서 계산 된 정확도 / f1score / auc / 무엇과 같은 메트릭을 결정할 수 없습니다. 연구에서 두 가지 관점을 모두 지키는 기사를 찾았습니다. Keras는 유효성 검사 손실을 기본값으로하는 것처럼 보이지만 반대 접근법 …

10 machine-learning neural-network deep-learning classification

3

XGboost-모델 별 선택

XGboost 를 사용하여 보험 청구에 대한 2 클래스 대상 변수를 예측하고 있습니다. 다른 데이터 세트에서 실행되는 모델 (교차 유효성 검사, 하이퍼 매개 변수 조정 등의 교육)이 있습니다. 내 질문은 : 주어진 주장 이 왜 한 클래스에 영향을 미쳤 는지 알 수있는 방법이 있습니까 ( 예 : 모델이 선택한 선택을 설명하는 …

10 xgboost

1

제스처 인식 시스템에 RNN (LSTM) 사용

ASL (American Sign Language) 제스처 를 분류하기위한 제스처 인식 시스템을 구축하려고합니다 . 따라서 입력은 카메라 또는 비디오 파일에서 프레임 시퀀스로 가정되며 시퀀스를 감지하여 해당하는 것에 매핑합니다 수업 (수면, 도움, 식사, 달리기 등) 문제는 이미 비슷한 시스템을 구축했지만 정적 이미지 (모션 포함 되지 않음)의 경우 손이 많이 움직이지 않고 CNN 을 …

10 neural-network deep-learning keras rnn lstm