데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A


3
Keras의 model.predict 함수 출력은 무엇을 의미합니까?
Quora 공식 데이터 세트에서 중복 질문을 예측하기 위해 LSTM 모델을 만들었습니다. 테스트 레이블은 0 또는 1입니다. 1은 질문 쌍이 중복되었음을 나타냅니다. 를 사용하여 모델을 빌드 한 후 테스트 데이터를 model.fit사용하여 모델을 model.predict테스트합니다. 출력은 아래와 같은 값의 배열입니다. [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ …


4
Gensim Word2Vec 구현에서 신기원의 수
Word2Vec 구현에 iter매개 변수 가 있습니다gensim gensim.models.word2vec.Word2Vec (문장 = 없음, 크기 = 100, alpha = 0.025, window = 5, min_count = 5, max_vocab_size = None, sample = 0, seed = 1, workers = 1, min_alpha = 0.0001, sg 클래스 = 1, hs = 1, 음수 = 0, cbow_mean = 0, …

2
텍스트 분류에 SMOTE를 어떻게 적용합니까?
SMOTE (Synthetic Minority Oversampling Technique)는 불균형 데이터 세트 문제에 사용되는 오버 샘플링 기술입니다. 지금까지 일반의 구조화 된 데이터에 적용하는 방법에 대한 아이디어가 있습니다. 그러나 텍스트 분류 문제에 적용 할 수 있습니까? 오버 샘플링해야하는 데이터 부분은 무엇입니까? 가 이미 다른 질문 그것에 대해,하지만이 답변이 없습니다. 이것을 시작하는 방법을 어디에서 배울 수 …

3
팬더 데이터 프레임-DMatrix
scikit learn에서 xgboost를 실행하려고합니다. 그리고 팬더 만 사용하여 데이터를 데이터 프레임에로드합니다. xgboost와 함께 pandas df를 어떻게 사용해야합니까? xgboost algo를 실행하는 데 필요한 DMatrix 루틴이 혼동됩니다.

4
휴먼 데이터베이스가없는 AlphaGo (및 강화 학습을 사용하는 다른 게임 프로그램)
나는 그 주제의 전문가가 아니며, 나의 질문은 아마도 매우 순진합니다. 그것은 AlphaGo 프로그램에서 사용되는 강화 학습의 힘과 한계를 이해하기위한 에세이에서 나옵니다. AlphaGo 프로그램은 무엇보다도 (몬테카를로 나무 탐색 등) 거대한 인간 네트워크 게임에서 훈련 된 신경망을 사용하여 만들어졌으며,이 게임은 스스로 여러 번 프로그램. 이제 우리는 휴먼 데이터베이스없이 그러한 프로그램을 구축하려고 시도했을 …

2
신경망 최적화에 유전자 알고리즘이 사용되지 않는 이유는 무엇입니까?
내가 이해 한 바에 따르면, 유전자 알고리즘은 다목적 최적화를위한 강력한 도구입니다. 또한 신경망 (특히 신경망)을 훈련하는 것은 어렵고 많은 문제 (볼록하지 않은 비용 함수-로컬 최소, 사라짐 및 폭발 그라디언트 등)가 있습니다. 또한 GA로 개념적으로 NN을 교육하는 것이 가능합니다. 나는 그들이 왜 실제로 사용되지 않는지 궁금했다. 성능 문제입니까?




1
랜덤 포레스트를 사용하여 샘플링 할 기능 수
"통계 학습의 요소" 를 인용 한 Wikipedia 페이지 는 다음과 같이 말합니다. 일반적으로 피처 의 분류 문제의 경우 ⌊ √p피p 각 분할에 p each기능이 사용됩니다.⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 나는 이것이 상당히 교육받은 추측이며 아마도 경험적 증거로 확인되었을 것임을 이해하지만, 제곱근을 선택 해야하는 다른 이유가 있습니까? 거기에 통계적인 현상이 있습니까? 이것이 어떻게 오차의 …

1
XGBRegressor와 xgboost의 속도 차이가 큰가?
다음 코드를 사용하여 모델을 훈련시키는 경우 : import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 약 1 분 후에 완료됩니다. Sci-Kit 학습 방법을 사용하여 모델을 훈련시키는 경우 : import …

1
int의 pandas 열을 타임 스탬프 데이터 유형으로 변환
1970-1-1 년 이후로 전달 된 밀리 초 수의 열을 포함하는 데이터 프레임이 있습니다. 이 int 열을 타임 스탬프 데이터로 변환해야하므로 1970-1-1의 날짜 / 시간 값으로 구성된 시리즈에 타임 스탬프 열 시리즈를 추가하여 궁극적으로 날짜 / 시간 데이터 열로 변환 할 수 있습니다. 일련의 문자열 을 날짜 시간 데이터 (pandas.to_datetime) 로 …

5
Scikit-learn Random Forest의 기능 중요성은 매우 높은 표준 편차를 보여줍니다
scikit-learn Random Forest Classifier를 사용하고 있으며이 예제 와 같이 기능의 중요도를 그려보고 싶습니다 . 그러나 피처 중요도 표준 편차가 피처 중요도 자체보다 거의 항상 크다는 점에서 필자의 결과는 완전히 다릅니다 (첨부 된 이미지 참조). 그런 행동을하는 것이 가능합니까, 아니면 그것을 그릴 때 실수를 저지르고 있습니까? 내 코드는 다음과 같습니다 import …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.