데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

1
회선 플라이는 일반 회선 네트워크와 어떻게 다릅니 까?
나는 현재이 논문 의 결과를 재현하기 위해 노력하고있다 . 이 논문에서는 특징 추출을 위해 CNN을 사용하는 방법을 설명하고 Dnn-hmm이고 RBM을 사용하여 사전 훈련 된 음향 모델을 가지고 있습니다. 섹션 III 하위 섹션 A는 입력 데이터를 표현할 수있는 다른 방법을 설명합니다. 정적, 델타 및 델타 델타의 스펙트럼 플롯을 수직으로 쌓기로 결정했습니다. …

3
큰 혼동 행렬을보다 쉽게 ​​읽을 수 있도록하려면 어떻게해야합니까?
최근 에 369 클래스 의 데이터 세트 ( link )를 게시했습니다 . 분류 작업이 얼마나 어려운지 느끼기 위해 몇 가지 실험을했습니다. 일반적으로 혼란스런 행렬이 있으면 오류 유형을 볼 수 있습니다. 그러나 행렬은 실용적이지 않습니다.369 × 369369×369369 \times 369 큰 혼란 매트릭스의 중요한 정보를 제공 할 수있는 방법이 있습니까? 예를 들어, …

4
기능 중요도의 맥락에서 의사 결정 트리 해석
sklearn으로 작성된 의사 결정 트리 분류 모델의 의사 결정 프로세스를 완전히 이해하는 방법을 이해하려고합니다. 내가보고있는 두 가지 주요 측면은 트리의 그래프 표시와 기능의 중요성 목록입니다. 내가 이해하지 못하는 것은 기능 컨텍스트가 트리의 맥락에서 어떻게 결정되는지입니다. 예를 들어, 다음은 중요한 기능 목록입니다. 기능 순위 : 1. FeatureA (0.300237) FeatureB (0.166800) FeatureC …

2
학습률이 신경 네트워크의 가중치를 급등시키는 이유는 무엇입니까?
나는 약간의 연구를 위해 간단한 신경망을 작성하기 위해 tensorflow를 사용하고 있으며 훈련하는 동안 'nan'무게에 많은 문제가있었습니다. 최적화 프로그램 변경, 손실 변경, 데이터 크기 등과 같은 다양한 솔루션을 시도했지만 아무 소용이 없습니다. 마지막으로, 학습률의 변화가 나의 체중에 믿을 수없는 차이를 가져 왔다는 것을 알았습니다. 학습 속도 .001 (정말 보수적이라고 생각)을 사용하면 …

2
word2vec의 단어 벡터의 특징
감정 분석을 시도하고 있습니다. 단어를 단어 벡터로 변환하기 위해 word2vec 모델을 사용하고 있습니다. '문장'이라는 목록에 모든 문장이 있고이 문장을 다음과 같이 word2vec로 전달한다고 가정합니다. model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 나는 단어 벡터에 멍청하기 때문에 두 가지 의심이 있습니다. 1- 피처 수를 300으로 설정하면 단어 벡터의 피처가 …

1
익명의 수치 예측 자와 함께 numer.ai 경쟁에 접근하는 방법?
Numer.ai 는 얼마 동안 사용되어 왔으며 웹에는 게시물이나 다른 토론이 거의없는 것 같습니다. 시스템이 수시로 변경되었으며 오늘 설정은 다음과 같습니다. [0,1]의 연속 값과 이진 목표를 가진 21 개의 피처로 트레인 (N = 96K) 및 테스트 (N = 33K) 데이터. 데이터가 깨끗하고 (결 측값 없음) 2 주마다 업데이트됩니다. 테스트 세트에 예측을 …

1
임의 포리스트와 선형 회귀를 통한 기능 중요도는 다릅니다.
Lasso를 적용하여 기능 순위를 매기고 다음 결과를 얻었습니다. rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 데이터 세트에는 3 개의 레이블이 있습니다. 다른 레이블의 기능 순위는 동일합니다. 그런 다음 임의의 포리스트를 동일한 데이터 세트에 적용했습니다. rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 …

3
기계 학습 알고리즘이 설명 가능성과 예측의 좋은 균형으로 인정되는 것은 무엇입니까?
그래디언트 부스팅 머신 또는 신경망과 같은 알고리즘을 설명하는 머신 러닝 텍스트는 종종 이러한 모델이 예측에 우수하다고 말하지만 설명 가능성 또는 해석 가능성이 떨어집니다. 반대로 단일 의사 결정 트리와 클래식 회귀 모델은 설명이 잘되어 있지만 임의 포리스트 또는 SVM과 같은보다 정교한 모델과 비교할 때 (상대적으로) 열악한 예측 정확도를 제공합니다. 기계 학습 …

3
신경망에서 정규화 방법 선택
신경망을 훈련 할 때, 네트워크를 정규화하는 최소한 4 가지 방법이 있습니다 : L1 정규화 L2 정규화 탈락 배치 정규화 물론 가중치 공유 및 연결 수 감소와 같은 다른 것들도 가장 엄격한 의미로 정규화되지 않을 수 있습니다. 그러나 어떤 정규화 방법 중 어떤 것을 사용할지 어떻게 선택할 것입니까? "모든 것을 시도하고 …

3
사용자가 모든 항목의 일부만 볼 수있는 상황에 대한 권장 엔진은 무엇입니까?
문서 관리 시스템에 추천 기능을 추가하고 싶습니다 . 대부분의 회사 문서가 저장되는 서버입니다. 직원은 웹 인터페이스를 탐색하고 클릭하여 원하는 문서를 다운로드하거나 온라인으로 읽습니다. 각 직원은 모든 문서의 하위 집합에만 액세스 할 수 있습니다. 내 목표 : 팀원이 최근에 열어 본 문서 나 방금 연 문서의 부속물로 사용되는 스프레드 시트 또는 …

2
협업 필터링을위한 벤치 마크 데이터 세트
협업 필터링을 위한 새로운 알고리즘을 테스트하고 싶습니다 . 일반적인 사용 사례는 특정 사용자와 유사한 사용자의 환경 설정을 기반으로 영화를 추천하는 것입니다. 연구원들이 알고리즘을 테스트하기 위해 자주 사용하는 일반적인 벤치 마크 데이터 세트는 무엇입니까? Computer Vision 내에서 사람들은 종종 MNIST 또는 CIFAR을 사용하지만 협업 필터링을위한 유사한 데이터 세트를 찾지 못했습니다.

1
SVM과 힌지 손실의 관계는 무엇입니까?
동료와 저는 로지스틱 회귀와 SVM의 차이점을 둘러보고자 노력하고 있습니다. 분명히 그들은 서로 다른 목적 함수를 최적화하고 있습니다. SVM은 단순히 경첩 손실을 최적화하는 차별적 분류기라고 말하는 것처럼 간단합니까? 아니면 그보다 더 복잡합니까? 서포트 벡터는 어떻게 작동합니까? 여유 변수는 어떻습니까? 왜 SGM을 사용하여 시그 모이 드 활성화 기능을 갖춘 심층 신경망을 가질 …

3
Scikit-Learn의 Random Forest Regressor에서 가중치 (수식) 내보내기
Python (Random Forest Regressor)의 Scikit Learn을 사용하여 예측 모델을 훈련했으며 수동 예측을위한 Excel 도구를 만들기 위해 각 기능의 가중치를 추출하고 싶습니다. 내가 찾은 유일한 것은 model.feature_importances_도움이되지 않습니다. 그것을 달성 할 수있는 방법이 있습니까? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( …

2
탈락과 다른 정규화를 조사하는 연구가 있습니까?
신경망에 대한 정규화 방법의 차이, 바람직하게는 다른 도메인 (또는 적어도 다른 데이터 세트)에 대한 차이점을 보여주는 논문이 있습니까? 나는 현재 대부분의 사람들이 컴퓨터 비전에서 정규화를 위해 드롭 아웃만을 사용하는 것처럼 보이기 때문에 묻고 있습니다. 다른 정규화 방법을 사용해야하는 이유가 있는지 확인하고 싶습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.